![prueba.jpg](attachment:prueba.jpg)

# __Leyendo diferentes tipos de archivos con Pandas__

En el siguiente Notebook, te mostramos como cargar datos de diferentes tipos de archivos a traves de la libreria Pandas. Importar datos de diferentes fuentes es fundamental en el analisis de datos y poderlo hacer desde una misma libreria es una ventaja que debemos aprovechar.

Y como siempre, vamos a hacerlo de manera practica con diferentes tipos de archivos y apoyandonos con la documentacion. Hemos creado dos carpetas, una que contiene los archivos con los datos a importar llamada _data_in_, y la otra con los archivos exportados llamada _data_out_. Esto con la finalidad de mantener organizado el ambiente de trabajo. Espero les sea de mucha utilidad.

## Importar archivo csv

In [2]:
# libreria a utilizar
import pandas as pd

Para importar un archivo _csv_, utilizamos la funcion _read_csv_ de Pandas tal como sigue:

In [3]:
# leer csv
df = pd.read_csv('./data_in/superstore_data.csv')
df.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


## Parámetros de la función _read_csv_

El siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html') te lleva a la documentación para comprender lo que hace cada parámetro de _read_csv_.

Vamos a importar un archivo con los datos separado por punto y coma utilizando el parámetro _sep_.

In [4]:
# guardar ruta en una variable
path_csv = './data_in/superstore_data_punto_coma.csv'

df_punto_coma = pd.read_csv(path_csv, sep=';')
df_punto_coma.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


Cargar el archivo con los datos separado por coma, pero esta vez, sólo 5 registros con el parámetro _nrows_.

In [5]:
df_5_rows = pd.read_csv(path_csv, sep=';', nrows=5)
df_5_rows

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


Cargar el archivo con los datos separados por punto y coma, pero esta vez, sólo con algunas columnas usando el parámetro _usecols_.

In [6]:
df_seleccion = pd.read_csv(path_csv, usecols=['Id', 'Year_Birth', 'Income'], sep=';')
df_seleccion.head()

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


In [7]:
# seleccion de columnas por su posicion: 
# 0 para Id, 1 para Year_Birth y 4 para Income 
df_seleccion = pd.read_csv(path_csv, usecols=[0, 1, 4], sep=';')
df_seleccion.head()

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


## Exportar archivos csv

Para exportar un  dataframe en formato _csv_ utilizamos la función _to_csv_. El siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html') te lleva a la documentación para comprender cada parámetro de esta función.

Vamos a exportar el archivo _df_seleccion_ pero sin importar lo índices, usando el parámetro _index_.

In [8]:
df_seleccion.to_csv('./data_out/clientes_mercado.csv', index=False)

Ahora, importamos el archivo que acabamos de exportar para verificar que se haya importado correctamente

In [9]:
clientes_mercado = pd.read_csv('./data_out/clientes_mercado.csv')
clientes_mercado.head()

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


## Importar archivos Excel

Para importar un archivo _xlsx_ utilizamos la función _read_excel_ de Pandas tal como sigue:

In [10]:
import pandas as pd

# ruta donde se encuentra el archivo
archivo = './data_in/emisiones_CO2.xlsx'

# importar archivo
df = pd.read_excel(archivo)
df

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0.000000e+00,,,,,,,
1,Afganistán,AFG,1751,0.000000e+00,,,,,,,
2,Afganistán,AFG,1752,0.000000e+00,,,,,,,
3,Afganistán,AFG,1753,0.000000e+00,,,,,,,
4,Afganistán,AFG,1754,0.000000e+00,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10,1.450697e+10,1.224263e+10,7.144928e+09,1.507923e+09,391992176.0,302294047.0,4749682.0
63100,Global,WLD,2018,3.682651e+10,1.474683e+10,1.226602e+10,7.529847e+09,1.569218e+09,412115746.0,302478706.0,4792753.0
63101,Global,WLD,2019,3.708256e+10,1.472598e+10,1.234565e+10,7.647528e+09,1.617507e+09,439253991.0,306638573.0,4775633.0
63102,Global,WLD,2020,3.526409e+10,1.417456e+10,1.119181e+10,7.556290e+09,1.637538e+09,407583673.0,296301685.0,4497423.0


Obtener el nombre de las hojas del archivo excel.

In [11]:
pd.ExcelFile(archivo).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

## Parámetros de la función _read_excel_

El siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html') te lleva a la documentacion de la funcion _read_excel_ para que comprendas lo que hace cada parámetro.

Abrir una hoja epecífica del archivo de excel con el parámetro _sheet_name_. Por defecto, muestra la hoja con índice 0.

In [12]:
# cargar hoja percapita
percapita = pd.read_excel(archivo, sheet_name='emisiones_percapita')
percapita.tail()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0
63103,Global,WLD,2021,4693699.0,1893923.0,1496614.0,1001585.0,211472.0,52663.0,37443.0


In [13]:
# cargar hoja de nombre 'fuentes'
fuentes = pd.read_excel(archivo, sheet_name='fuentes')
fuentes.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
2545,Armenia,ARM,1847,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
54813,Suiza,CHE,1891,CDIAC 2022,CDIAC 2022,CDIAC 2022,CDIAC 2022,[NONE],CDIAC 2022,[NONE],CDIAC 2022 and Maddison
35494,Mauritania,MRT,1884,[NONE],[NONE],[NONE],[NONE],Andrew cement,[NONE],[NONE],[NONE]
38608,Naurú,NRU,2006,CDIAC 2022,CDIAC 2022,CDIAC 2022,CDIAC 2022,Andrew cement,CDIAC 2022,[NONE],CDIAC 2022 and UN population
58980,Ucrania,UKR,1978,[NONE],[NONE],[NONE],[NONE],Andrew cement,[NONE],[NONE],UN population


Seleccionar una serie de columnas mediante _usecols_, tal como se hace en excel a través de letras como índices.

In [14]:
# columnas de la A a la D
intervalo = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols='A:D')
intervalo.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.0
1,Afganistán,AFG,1751,0.0
2,Afganistán,AFG,1752,0.0
3,Afganistán,AFG,1753,0.0
4,Afganistán,AFG,1754,0.0


Seleccionar una serie de registros mediante _nrows_, tal como se selecionan en excel.

In [15]:
# columnas de la A a la D
# filas de la 1 a la 10
intervalo_2 = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols='A:D', nrows=10)
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0
1,Afganistán,AFG,1751,0
2,Afganistán,AFG,1752,0
3,Afganistán,AFG,1753,0
4,Afganistán,AFG,1754,0
5,Afganistán,AFG,1755,0
6,Afganistán,AFG,1756,0
7,Afganistán,AFG,1757,0
8,Afganistán,AFG,1758,0
9,Afganistán,AFG,1759,0


## Exportar archivo Excel

El siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html') muestra la documentación de la función _to_excel_ para que comprendas cada parámetro que la conforma.

Vamos a exportar el df '_intervalo_' con la función _to_excel_.

In [16]:
intervalo.to_excel('./data_out/CO2_percapita.xlsx', index=False)

Vamos a cargar el archivo _xlsx_ recien importado para verificar que se ha importado correctamente.

In [17]:
# cargar archivo exportado
pd.read_excel('./data_out/CO2_percapita.xlsx').head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.0
1,Afganistán,AFG,1751,0.0
2,Afganistán,AFG,1752,0.0
3,Afganistán,AFG,1753,0.0
4,Afganistán,AFG,1754,0.0


## Importar datos desde Google Sheets

Primero, obtenemos el link del archivo desde Google Sheets.

link: https://docs.google.com/spreadsheets/d/1P9-66nt13OmJjB-AjySSDw0YbvAZxEKZ/edit?usp=sharing&ouid=112995986981378980539&rtpof=true&sd=true

Para leer el archivo, debemos ubicar el ID que inicia después del slash de '_d_' y termina en el siguiente slash.

In [18]:
sheet_id = '1P9-66nt13OmJjB-AjySSDw0YbvAZxEKZ'

# guardamos la url pero cambiando la extension sharing por gviz/tq?tqx=out:csv$sheet
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'


In [19]:
# cargamos el archivo csv desde google sheets
datos_google = pd.read_csv(url)
datos_google.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
61574,Wallis Y Futuna,WLF,1852,0,,,,,,,
18105,Micronesia (Estados Federados De),FSM,1903,0,,,,,,,
32894,Macao,MAC,2004,1.714.752,0.0,1.714.752,0.0,,0.0,,3.605.988
34132,Maldivas,MDV,1882,0,,,,,,,
61584,Wallis Y Futuna,WLF,1862,0,,,,,,,


Para abrir una hoja especifica del archivo en Google Sheets, debemos ubicar el nombre de la hoja en una variable y colocarla al final de la url tal como sigue:

In [20]:
sheet_id = '1P9-66nt13OmJjB-AjySSDw0YbvAZxEKZ'
# guardar nombre de la hoja
sheet_name = 'emisiones_percapita'
# agregar variable a la url
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
# cargar hoja con pandas
percapita = pd.read_csv(url)
percapita.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
33049,Macedonia Del Norte,MKD,1887,,,,,,,
58336,Tuvalu,TUV,1878,,,,,,,
9678,Cabo Verde,CPV,1908,,,,,,,
33460,Malaui,MWI,1754,,,,,,,
42442,Panamá,PAN,1760,,,,,,,


In [21]:
sheet_id = '1P9-66nt13OmJjB-AjySSDw0YbvAZxEKZ'
# guardar nombre de la hoja
sheet_name = 'fuentes'
# agregar variable a la url
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
# cargar hoja con pandas
fuentes = pd.read_csv(url)
fuentes.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
24722,Hong Kong,HKG,1992,CDIAC 2022,CDIAC 2022,CDIAC 2022,CDIAC 2022,Andrew cement,CDIAC 2022,[NONE],CDIAC 2022 and UN population
37930,Myanmar,MMR,1872,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
18938,Zona Del Canal De Panamá,PCZ,1920,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
55114,Siria,SYR,1920,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
18693,Finlandia,FIN,1947,CDIAC 2022,CDIAC 2022,CDIAC 2022,CDIAC 2022,Andrew cement,CDIAC 2022,[NONE],CDIAC 2022 and Maddison


## Importar archivos JSON

Para cargar archivos tipo .json, utilizamos la funcion _read_csv_ cuya documentacion encuentras en el siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.read_json.html').

Vamos a cargar el archivo "_pacientes.json_" para mostrar cómo se hace.

In [22]:
import pandas as pd

In [23]:
# leer archivo json
df_pacientes = pd.read_json('./data_in/pacientes.json')
df_pacientes

Unnamed: 0,ID_paciente,Enfermedad_corazon,IMC,Fumador,Consumo_alcohol,AVC,Salud_fisica,Salud_mental,Dificultad_caminar,Sexo_biologico,Rango_edad,Raza,Diabetes,Actividad_fisica,Salud_general,Horas_sueño,Asma,Enfermedad_renal,Cancer_piel
0,0,No,16.60,Sí,No,No,3,30,No,Femenino,55-59,Blanca,Sí,Sí,Muy buena,5,Sí,No,Sí
1,1,No,20.34,No,No,Sí,0,0,No,Femenino,80 ó +,Blanca,No,Sí,Muy buena,7,No,No,No
2,2,No,26.58,Sí,No,No,20,30,No,Masculino,65-69,Blanca,Sí,Sí,Razonable,8,Sí,No,No
3,3,No,24.21,No,No,No,0,0,No,Femenino,75-79,Blanca,No,No,Buena,6,No,No,Sí
4,4,No,23.71,No,No,No,28,0,Sí,Femenino,40-44,Blanca,No,Sí,Muy buena,8,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,No,28.29,Sí,No,No,10,20,No,Femenino,65-69,Negra,Sí,Sí,Razonable,8,No,No,No
996,996,No,25.69,Sí,No,No,0,0,No,Femenino,75-79,Blanca,No,Sí,Excelente,8,No,No,No
997,997,Sí,26.99,No,No,No,1,0,No,Masculino,70-74,Blanca,No,Sí,Muy buena,8,No,No,No
998,998,No,44.29,No,No,No,30,0,Sí,Femenino,70-74,Blanca,Sí,No,Buena,6,Sí,No,No


Existen archivos json que vienen estructurados con diccionarios anidados, lo que hace que al cargarlo, la visualizacion no sea la mejor y se pierda la estructura tabular de los dataframes.

El archivo "_pacientes_2.json_" presenta este tipo de estructuras. Vamos a visualizarlo.

In [24]:
# leer archivo json con diccionarios anidados
df_pacientes_2 = pd.read_json('./data_in/pacientes_2.json')
df_pacientes_2

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '01', 'Rango_edad': '55-59', 'Sexo_biol..."
1,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '02', 'Rango_edad': '80 ó +', 'Sexo_bio..."
2,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '03', 'Rango_edad': '65-69', 'Sexo_biol..."


Para arreglarlo, debemos conocer la estructura del _json_ y para ello utilizamos el siguiente editor de json: 

- [JSONcrack](https://jsoncrack.com/editor) 

Al visualizar el archivo en este editor, obtenemos un diagrama donde podemos identificar cómo se estructura el _json_:

![image.png](attachment:image.png)

El siguiente paso es normalizar las variables que presentan diccionarios anidados con el método _json_normalize()_. Este busca expandir cada diccionario y colocar las variables en nuevas columnas.

In [25]:
df_normalizado = pd.json_normalize(df_pacientes_2['Pacientes'])
df_normalizado

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


> De esta forma tenemos los datos en formato tabular ideal para analisis.

## Exportar archivo JSON

Vamos a exportar archivos en formato json con la funcion _to_json_ de la siguiente manera.

In [26]:
df_normalizado.to_json('./data_out/historico_pacientes_norm.json')

Abrimos el archivo que acaba de exportar para verificar que esta en el formato adecuado.

In [27]:
# abrimos el archivo json
pd.read_json('./data_out/historico_pacientes_norm.json')

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


## Importar páginas web

La página web que vamos a cargar esta almacenada en la carpeta _data_in_. Vamos a extraer las tablas contenidas en la página con la función _read_html_ y luego podemos seleccionar aquella que queremos en formato dataframe.

La documentación de esta función la encuentras en el siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.read_html.html').

In [28]:
import pandas as pd

In [29]:
df_html = pd.read_html('./data_in/peliculas_wikipedia.html')
df_html

[                                                    0  \
 0                                                1998   
 1                                                1999   
 2                                                2000   
 3                                                2001   
 4                                                2002   
 5                                                2003   
 6                                                2004   
 7                                                2005   
 8                                                2005   
 9                                                2006   
 10                                               2006   
 11                                               2007   
 12                                               2008   
 13  .mw-parser-output .hlist dl,.mw-parser-output ...   
 
                                                     1  
 0                                          100 Movies  
 1            

In [30]:
# tipo de dato
type(df_html)

list

In [31]:
# verificar cantidad de elementos
len(df_html)

3

> Nos devuelve una lista con 3 elementos, en este caso las 3 tablas contenidas en la página.

Seleccionamos la tabla de nuestro interés que en este caso, esta en la posición 1.

In [32]:
top_peliculas = df_html[1]
top_peliculas

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
...,...,...,...,...,...
95,The Searchers,1956,John Ford,C. V. Whitney Pictures,96
96,Bringing Up Baby,1938,Howard Hawks,RKO Radio Pictures,97
97,Unforgiven,1992,Clint Eastwood,The Malpaso Company,98
98,Guess Who's Coming to Dinner,1967,Stanley Kramer,Columbia Pictures,99


> De esta forma llegamos a la tabla requerida en formato dataframe.

## Exportar HTML

Una vez manipulado los datos, podemos exportarlos en fomato HTML con la funcion _to_html_ tal como sigue a continuación:

In [33]:
top_peliculas.to_html('./data_out/top_peliculas.html' ,index=False)

Vamos a leer el archivo recien exportado para verificar la estructura HTML.

In [34]:
df = pd.read_html('./data_out/top_peliculas.html')
df

[                            Film  Release year              Director  \
 0                   Citizen Kane          1941          Orson Welles   
 1                     Casablanca          1942        Michael Curtiz   
 2                  The Godfather          1972  Francis Ford Coppola   
 3             Gone with the Wind          1939        Victor Fleming   
 4             Lawrence of Arabia          1962            David Lean   
 ..                           ...           ...                   ...   
 95                 The Searchers          1956             John Ford   
 96              Bringing Up Baby          1938          Howard Hawks   
 97                    Unforgiven          1992        Clint Eastwood   
 98  Guess Who's Coming to Dinner          1967        Stanley Kramer   
 99           Yankee Doodle Dandy          1942        Michael Curtiz   
 
                       Production companies  Rank  
 0                       RKO Radio Pictures     1  
 1                

> Se muestra la tabla en una lista ya que _read_html_ la devuelve en ese formato. Para convertirlo en dataframe basta con seleccionar el unico elemento de la lista y guardarlo en una variable.

In [35]:
datos = df[0]
datos

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
...,...,...,...,...,...
95,The Searchers,1956,John Ford,C. V. Whitney Pictures,96
96,Bringing Up Baby,1938,Howard Hawks,RKO Radio Pictures,97
97,Unforgiven,1992,Clint Eastwood,The Malpaso Company,98
98,Guess Who's Coming to Dinner,1967,Stanley Kramer,Columbia Pictures,99


## Importar XML

En la carpeta _data_in_, guardamos la página de formato XML que vamos a  importar. Para ello, utilizamos la función _read_xml()_, cuya documentación la encuentras en el siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.read_xml.html') 

In [36]:
import pandas as pd

In [37]:
df = pd.read_xml('./data_in/imdb_top_1000.xml')
df.head()

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
3,3,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
4,4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000


> Nos devuelve la información XML en formato dataframe.

## Exportar XML

Para exportar datos en formato xml, utilizamos la funcion _to_xml()_ de la siguiente forma:

In [38]:
df.to_xml('./data_out/peliculas_imdb.xml', index=False)

## Creando un banco de datos local

Para crear un banco de datos local, debemos importar un motor de datos SQL que permita acceder a la informacion. Para nuestro caso, vamos a utilizar _sqlalchemy_.

In [4]:
import sqlalchemy
print(sqlalchemy.__version__)

2.0.41


Una vez importada, vamos a traer los metodos que nos ayudaran a manipular la inormacion:

- create_engine: crea el motor de dato que corre sql
- MetaData: guarda la informacion de las tablas 
- Table: permite trabajar con las tablas
- inspect: permite inspeccionar las tablas
- text: permite convertir las querys en tipo texto que python las pueda entende

In [5]:
from sqlalchemy import create_engine, MetaData, Table, inspect, text

Procedemos a instanciar el motor de datos.

In [6]:
# crear motor de dato con sqlite
engine = create_engine('sqlite:///:memory:')

## Escribiendo un banco de datos

Vamos a cargar los datos que tenemos en formato _csv_ para luego exportarlos al banco de datos local que hemos creado.

In [7]:
import pandas as pd

In [8]:
# guardamos archivo en una variable
archivo = './data_in/clientes_banco.csv'

# cargar datos
datos = pd.read_csv(archivo, nrows=200)

datos.head()

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio


Ahora, exportamos los datos con la funcion _to_sql()_ al motor de datos.

In [9]:
# exportar datos a sql
datos.to_sql('clientes', engine, index=False)

200

Inspeccionamos las tablas creadas en el motor de datos

In [10]:
inspector = inspect(engine)
inspector

<sqlalchemy.engine.reflection.Inspector at 0x7165243a12a0>

Y ahora, mostramos las tablas creadas, que en este caso se trata solo de la tabla _clientes_ ya que fue la unica definida al exportar los datos.

In [11]:
# revisar las tablas generadas
print(inspector.get_table_names())

['clientes']


## Leyendo una consulta SQL 

Una vez subido los datos al motor, podemos crear consultas sql para crear filtros y acceder a los datos que deseamos. en lo que sigue, vamos a crear filtros para obtener los datos que nos solicitan.

### __Filtrar registros que sean 'empleado' en categoría de renta__

In [12]:
# consulta para filtrar datos de interes
query = 'SELECT * FROM clientes WHERE Categoria_de_renta = "Empleado"'

La forma de pasar el filtro al motor de datos con pandas es con la función _read_sql()_ cuya documentación la encuentras en el siguiente [enlace]('https://pandas.pydata.org/docs/reference/api/pandas.read_sql.html')

In [13]:
# leer consulta con pandas
empleados = pd.read_sql(sql=text(query), con=engine.connect())
empleados

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
72,5009014,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
73,6153574,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
74,6153575,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
75,6153576,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio


Guardamos los resultados en una nueva tabla SQL y la subimos al banco de datos con la función _to_sql()_.

In [14]:
# exportar nueva tabla al banco de datos
empleados.to_sql('empleados', con=engine.connect(), index=False)

77

### __Obtener infomación específica de los registros de una tabla SQL__

Vamos a leer una tabla específica del banco de datos, en este caso la tabla _empleados_ con la función _read_sql_table()_ de la siguiente forma:

In [15]:
pd.read_sql_table('empleados', con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
72,5009014,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
73,6153574,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
74,6153575,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
75,6153576,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio


Además de leer una tabla específica, también podemos filtrar por algunas columnas. Veamos cómo lograrlo:

In [16]:
# leer informacion solo de las columnas ID_cliente, Grado_estudio y Rendimiento_anual de la tabla empleados 
pd.read_sql_table('empleados', con=engine.connect(), columns=['ID_Cliente', 'Grado_estudio', 'Rendimiento_anual'])

Unnamed: 0,ID_Cliente,Grado_estudio,Rendimiento_anual
0,5008804,Nivel superior,427500.0
1,5008805,Nivel superior,427500.0
2,5008806,Nivel intermedio,112500.0
3,5008815,Nivel superior,270000.0
4,5112956,Nivel superior,270000.0
...,...,...,...
72,5009014,Nivel intermedio,166500.0
73,6153574,Nivel intermedio,166500.0
74,6153575,Nivel intermedio,166500.0
75,6153576,Nivel intermedio,166500.0


## Actualizando un banco de datos

### __Elimina un registro de una tabla__

Para eliminar el registro de una tabla del banco de datos procedemos como sigue:

Vamos a cargar la tabla _clientes_

In [17]:
# consulta para obtener todos los registros de la tabla 'clientes'
query = 'SELECT * FROM clientes'

In [18]:
# leer query
pd.read_sql(sql= text(query), con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
195,6153574,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
196,6153575,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
197,6153576,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
198,6153578,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio


Creamos una consulta para eliminar un registro de la tabla cargada, esta vez seleccionamos el registro con ID_Cliente de 5008804.

In [19]:
# importar metodo de error
from sqlalchemy.exc import SQLAlchemyError

# consulta para eliminar registro
query = 'DELETE FROM clientes WHERE ID_Cliente=5008804'

# manejo de errores
try:
    r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
    print(e)
else:
    print('#Registros borrados: ', r_set.rowcount)

#Registros borrados:  1


Finalmente, verificamos que se ha eliminado el registro correctamente cargando nuevamente la tabla _clientes_.

In [20]:
# confirmar que se elimino un registro
pd.read_sql_table('clientes', con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
194,6153574,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
195,6153575,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
196,6153576,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
197,6153578,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio


> Hemos confirmado que se ha eliminado el registro

### __Actualizar registro de una tabla__

Para actualizar el registro de una tabla, procedemos a hacerlo desde la consulta con sql.

In [21]:
# actualizar grado de estudio a un registro

# consulta para actualizar registro
query = 'UPDATE clientes SET Grado_estudio="Nivel superior" WHERE ID_Cliente=5008808'

# manejo de errores
try:
    r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
    print(e)
else:
    print('#Registros actualizados: ', r_set.rowcount)

#Registros actualizados:  1


In [22]:
# confirmar actualizacion del registro
pd.read_sql_table('clientes', con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel superior,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
194,6153574,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
195,6153575,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
196,6153576,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio
197,6153578,51,Nivel intermedio,Casado,2,Empleado,Construcción Civil,17,166500.0,0,Casa/Departamento propio


> Hemos confirmado que el registro se ha actualizado correctamente

Finalmente podemos consultar las tablas creadas en el motor de datos de la siguiente forma:

In [23]:
# inspeccionar las tablas cargadas en el motor
inspector = inspect(engine)
print(inspector.get_table_names())

['clientes', 'empleados']
