# Alumno: Pablo Matías Monsalvo G8-ONE
### Pandas E/S: Trabajando con direntes formatos de archivos
## **Aula 1 - Leyendo archivos CSV**

###**Importando archivos CSV**

In [1]:
import pandas as pd

In [2]:
datos = pd.read_csv('../data/superstore_data.csv')

In [3]:
datos.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [4]:
datos_punto_coma = pd.read_csv('../data/superstore_data_punto_coma.csv')

In [5]:
datos_punto_coma.head()

Unnamed: 0,Id;Year_Birth;Education;Marital_Status;Income;Kidhome;Teenhome;Dt_Customer;Recency;MntWines;MntFruits;MntMeatProducts;MntFishProducts;MntSweetProducts;MntGoldProds;NumDealsPurchases;NumWebPurchases;NumCatalogPurchases;NumStorePurchases;NumWebVisitsMonth;Response;Complain
0,1826;1970;Graduation;Divorced;84835;0;0;6/16/2...
1,1;1961;Graduation;Single;57091;0;0;6/15/2014;0...
2,10476;1958;Graduation;Married;67267;0;1;5/13/2...
3,1386;1967;Graduation;Together;32474;1;1;11/5/2...
4,5371;1989;Graduation;Single;21474;1;0;8/4/2014...


##  04 Para saber más: error de codificación - ¿cómo solucionarlo?

Giovanna es una científica de datos que trabaja en una empresa de comercio electrónico. Ella es responsable de analizar datos de ventas para identificar patrones y tendencias que puedan ayudar a la empresa a tomar decisiones informadas.

Recientemente, le asignaron una nueva tarea: analizar un archivo CSV que contiene información sobre las ventas de la empresa durante un período determinado. Para ello, Giovanna intentó leer un archivo CSV en Google Colab, usando la biblioteca Pandas con el siguiente comando:

# import pandas as pd
# df = pd.read_csv('datos.csv')

Sin embargo, apareció el siguiente error:

En español, el mensaje significa UnicodeDecodeError: el códec 'utf-8' no puede decodificar el byte 0xff en la posición 0: byte de inicio inválido

Pero ¿qué significa eso? ¿Qué es esto de UTF-8?

El error de encoding ocurre cuando la biblioteca Pandas no puede interpretar correctamente los caracteres en un archivo CSV. Esto puede suceder cuando contiene caracteres especiales que la biblioteca Pandas no reconoce o cuando se guardó en un formato de codificación diferente al esperado.

Para resolver este error, es necesario identificar la codificación correcta del archivo CSV y especificarla al cargar el archivo con la biblioteca Pandas. Esta codificación predeterminada es UTF-8, pero en algunos casos, es posible que el archivo se haya guardado con una codificación diferente, como ISO-8859-1.

UTF-8 es una codificación de caracteres universal que se utiliza para representar caracteres de diferentes idiomas de una manera compatible con Internet y los sistemas de computadora en general. Las siglas UTF significan Unicode Transformation Format (Formato de Transformación Unicode) y el número 8 indica que esta codificación asocia una secuencia de 1 a 4 bytes (8 a 32 bits) a cada carácter.

La codificación UTF-8 se usa ampliamente en Internet y en sistemas informáticos de todo el mundo, ya que permite representar caracteres de diferentes idiomas en un solo conjunto de caracteres. Además, esta codificación puede preservar la compatibilidad con codificaciones más antiguas como ASCII, lo que la convierte en una opción popular para crear y compartir archivos de texto.

Quizás estés pensando ahora mismo: ¿cómo podría Giovanna descubrir cuál es la codificación del archivo que está intentando leer?

Hay algunas formas de resolver esto, sin embargo, tendremos la oportunidad de experimentar una forma práctica de hacerlo en el propio Google Colab. ¿Vamos allá?

Podemos usar una biblioteca llamada chardet para detectar el encoding de un archivo CSV. Para usar esta biblioteca en Google Colab, simplemente importela:

# import chardet

Luego escribimos el siguiente bloque de código:

# with open('datos.csv', 'rb') as file:
  #  print(chardet.detect(file.read()))

Observe que la primera línea de este código abre el archivo CSV en modo de lectura binaria rb y asigna el objeto del archivo devuelto a una variable llamada file.

En la segunda línea de código, el contenido del archivo CSV se lee usando el método read() y el resultado se pasa a la función chardet.detect(), que devuelve un diccionario que contiene información sobre la codificación más probable del archivo. El resultado se imprime con la función print() que muestra la codificación y la confianza asociada con esa codificación.

Al ejecutar el código Giovanna obtuvo el siguiente resultado:

# {'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}

Ahora ella sabe que es probable que el archivo CSV esté codificado con UTF-16 con una confianza de 1.0. Para especificar la codificación correcta al cargar el archivo CSV con la biblioteca Pandas, puede utilizar un parámetro llamado encoding:

# df = pd.read_csv('datos.csv', encoding='UTF-16')

De esta manera, la biblioteca Pandas cargará el archivo CSV usando la codificación UTF-16, lo que resolverá el error de codificación. Entonces, si alguna vez intentas leer un archivo y obtienes el mismo error, ¡recuerda este consejo!

Si deseas profundizar más en el tema, aquí te dejamos algunos enlaces a materiales que fueron utilizados como referencia:

Instituto de Matemáticas y Estadística - IME/USP: Unicode y UTF-8
IBM: ¿Qué es Unicode?
Kaggle: codificaciones de caracteres

In [8]:
pip install chardet

Collecting chardet
  Using cached chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Using cached chardet-5.2.0-py3-none-any.whl (199 kB)
Installing collected packages: chardet
Successfully installed chardet-5.2.0
Note: you may need to restart the kernel to use updated packages.


In [9]:
import chardet

In [10]:
with open('../data/superstore_data.csv','rb')as file:
    print(chardet.detect(file.read()))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


###**Parámetros de la función read_csv**
Documentación: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [6]:
datos_punto_coma = pd.read_csv('../data/superstore_data_punto_coma.csv', sep = ';')

In [11]:
datos_punto_coma.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [12]:
datos_primeras_lineas = pd.read_csv('../data/superstore_data.csv',nrows=5)
datos_primeras_lineas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [13]:
datos_seleccion = pd.read_csv('../data/superstore_data.csv', usecols=['Id', 'Year_Birth', 'Income'])
datos_seleccion

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [15]:
datos_seleccion = pd.read_csv('../data/superstore_data.csv', usecols=[0,1,4])
datos_seleccion

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


## 06 Leyendo un archivo CSV

Juliana está trabajando en un proyecto de análisis de datos de ventas para una tienda minorista. Ella recibió un conjunto de datos en formato CSV con los valores separados por punto y coma y necesita importarlo a un DataFrame de la biblioteca Pandas para iniciar el análisis.

¿Cuál es la forma correcta de leer este archivo CSV usando la biblioteca Pandas?

# pd.read_csv(‘datos_ventas.csv’, sep=‘;’)

Al leer un archivo CSV con la biblioteca Pandas, es importante especificar el separador de campo correcto usando el parámetro sep. La opción predeterminada es una coma (','), por lo que debemos agregar el separador ;



### **Escribiendo archivos CSV**

Documentación: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [17]:
datos_seleccion.to_csv('clientes_mercado.csv')

In [18]:
clientes_mercado = pd.read_csv('../data/clientes_mercado.csv')
clientes_mercado

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0
...,...,...,...,...
2235,2235,10142,1976,66476.0
2236,2236,5263,1977,31056.0
2237,2237,22,1976,46310.0
2238,2238,528,1978,65819.0


In [19]:
datos_seleccion.to_csv('datos_mercado.csv', index=False)

In [21]:
datos_mercado = pd.read_csv('../data/datos_mercado.csv')
datos_mercado

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


##  08 - Para saber más: explorando la documentación

La biblioteca Pandas es una de las herramientas más poderosas disponibles para análisis de datos en Python. Ofrece una amplia variedad de funciones que hacen que el proceso de manipulación y análisis de datos sea mucho más fácil y eficiente.

Para aprovechar al máximo todas las funciones de la biblioteca, es esencial explorar su documentación, que es extensa y está bien organizada, y a la que se puede acceder fácilmente en línea. Consulta las indicaciones:

Función read_csv
Función to_csv
Explorar la documentación de la biblioteca es importante por varias razones. Puede ayudarle a comprender cómo las funciones y métodos de la biblioteca funcionan y cómo se pueden utilizar para analizar y manipular datos.

Además, la documentación proporciona detalles sobre los parámetros de cada función y ejemplos de cómo se pueden utilizar en la práctica. Entonces, intenta profundizar tus estudios sobre los parámetros de cada función read_csv y to_csv y aprende más sobre cada uno de ellos.

##  09 Desafío: leyendo datos con múltiples parámetros

Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Disponemos de un archivo en formato CSV, el cual se obtuvo de la página Información de Salud (TABNET) - DATASUS. Este archivo contiene los gastos hospitalarios públicos de cada una de las Unidades de la Federación Brasileña desde enero de 2008 hasta marzo de 2021.

Su desafío aquí será leer este archivo usando la función read_csv de la biblioteca Pandas. Se deben agregar algunos parámetros para que la lectura se realice correctamente. Entonces, aquí hay algunos consejos:

* 1-Asegúrese de que el archivo CSV esté separado por una coma o punto y coma.
* 2-La codificación del archivo es ISO-8859-1.
* 3-Las primeras tres líneas del archivo se pueden ignorar, ya que el encabezado sólo comienza en la cuarta línea.
* 4-Las últimas 9 líneas también se pueden ignorar, ya que son sólo información sobre dónde se tomaron los datos.
* 5-Para eliminar las últimas líneas es necesario agregar el parámetro engine='python'.
¿Comenzamos?

Procedimentos hospitalares do SUS - por local de interna��o - Brasil
Valor total por Unidade da Federa��o e Ano/m�s processamento
Per�odo:Jan/2008-Mar/2021
"Unidade da Federa��o";"2008/Jan";"2008/Fev";"2008/Mar";"2008/Abr";"2008/Mai";"2008/Jun";"2008/Jul";"2008/Ago";"2008/Set";"2008/Out";"2008/Nov";"2008/Dez";"2009/Jan";"2009/Fev";"2009/Mar";"2009/Abr";"2009/Mai";"2009/Jun";"2009/Jul";"2009/Ago";"2009/Set";"2009/Out";"2009/Nov";"2009/Dez";"2010/Jan";"2010/Fev";"2010/Mar";"2010/Abr";"2010/Mai";"2010/Jun";"2010/Jul";"2010/Ago";"2010/Set";"2010/Out";"2010/Nov";"2010/Dez";"2011/Jan";"2011/Fev";"2011/Mar";"2011/Abr";"2011/Mai";"2011/Jun";"2011/Jul";"2011/Ago";"2011/Set";"2011/Out";"2011/Nov";"2011/Dez";"2012/Jan";"2012/Fev";"2012/Mar";"2012/Abr";"2012/Mai";"2012/Jun";"2012/Jul";"2012/Ago";"2012/Set";"2012/Out";"2012/Nov";"2012/Dez";"2013/Jan";"2013/Fev";"2013/Mar";"2013/Abr";"2013/Mai";"2013/Jun";"2013/Jul";"2013/Ago";"2013/Set";"2013/Out";"2013/Nov";"2013/Dez";"2014/Jan";"2014/Fev";"2014/Mar";"2014/Abr";"2014/Mai";"2014/Jun";"2014/Jul";"2014/Ago";"2014/Set";"2014/Out";"2014/Nov";"2014/Dez";"2015/Jan";"2015/Fev";"2015/Mar";"2015/Abr";"2015/Mai";"2015/Jun";"2015/Jul";"2015/Ago";"2015/Set";"2015/Out";"2015/Nov";"2015/Dez";"2016/Jan";"2016/Fev";"2016/Mar";"2016/Abr";"2016/Mai";"2016/Jun";"2016/Jul";"2016/Ago";"2016/Set";"2016/Out";"2016/Nov";"2016/Dez";"2017/Jan";"2017/Fev";"2017/Mar";"2017/Abr";"2017/Mai";"2017/Jun";"2017/Jul";"2017/Ago";"2017/Set";"2017/Out";"2017/Nov";"2017/Dez";"2018/Jan";"2018/Fev";"2018/Mar";"2018/Abr";"2018/Mai";"2018/Jun";"2018/Jul";"2018/Ago";"2018/Set";"2018/Out";"2018/Nov";"2018/Dez";"2019/Jan";"2019/Fev";"2019/Mar";"2019/Abr";"2019/Mai";"2019/Jun";"2019/Jul";"2019/Ago";"2019/Set";"2019/Out";"2019/Nov";"2019/Dez";"2020/Jan";"2020/Fev";"2020/Mar";"2020/Abr";"2020/Mai";"2020/Jun";"2020/Jul";"2020/Ago";"2020/Set";"2020/Out";"2020/Nov";"2020/Dez";"2021/Jan";"2021/Fev";"2021/Mar";"Total"
"Rond�nia";1388528,39;2931283,42;1541682,52;1525314,96;1645953,84;1406150,68;3065279,01;3231494,61;3117178,63;3068430,44;2825838,52;2931173,58;2885269,07;2860103,74;3684944,68;3607289,68;3774356,60;3706711,84;3763187,55;3533625,83;3605007,43;3907032,72;3939820,71;3901084,11;3684407,02;3623015,58;3890461,90;4193533,87;4534400,67;4451208,03;4874592,78;4460802,38;5067886,24;4511092,85;4394680,50;4098741,80;4411499,48;3868617,95;4298702,78;5062171,26;4769347,86;4578105,60;4477870,09;5173453,51;5554791,51;4110177,87;4428561,32;
"R

## Opinión del instructor

Para leer el archivo podemos comenzar almacenando la dirección en una variable llamada url:

In [38]:
import pandas as pd

# Define la ruta relativa al archivo
# Esta ruta asume que el script/notebook se está ejecutando desde
# el directorio 'ipynb-alura' (un nivel arriba de 'data').
url = '../data/datos_sus.csv'

# Lee el archivo CSV con los parámetros especificados
datos_sus = pd.read_csv(url,
                        encoding='ISO-8859-1',
                        sep=';',
                        skiprows=3,  # ¡Corregido aquí!
                        skipfooter=9,
                        engine='python')

# Muestra las primeras filas para verificar que la lectura fue correcta
datos_sus.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


Luego podemos leer la url con la función read_csv y agregar los parámetros:

* encoding='ISO-8859-1': tipo de codificación de caracteres del archivo. En este caso, es la codificación ISO-8859-1 la que es común en los archivos en idioma portugués.
* sep=';': separador de los valores del archivo. En este caso, es el punto y coma (;).
* skiprows=3: indica que las primeras tres líneas del archivo deben ignorarse ya que no contienen datos relevantes.
* skipfooter=9: Indica que las últimas nueve líneas del archivo deben ignorarse ya que no contienen datos relevantes.
* engine='python': el motor utilizado para leer el archivo es Python. Esto es necesario cuando se utiliza el parámetro skipfooter, ya que el motor predeterminado no admite esta opción.

# 10 Lo que aprendimos


### En esta aula, aprendimos:

* Entender qué es un archivo CSV;
* Leer un archivo en formato CSV separado por comas y punto y coma;
* Leer sólo unas pocas líneas y también columnas específicas de un archivo en formato CSV;
* Escribir un archivo en formato CSV.

## **Aula 2 - Leyendo archivos Excel**

### **Importando archivos Excel**

In [22]:
import pandas as pd

In [25]:
archivo = '../data/emisiones_CO2.xlsx'

In [27]:
datos_co2 = pd.read_excel(archivo)

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [7]:
datos_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0.0,,,,,,,
1,Afganistán,AFG,1751,0.0,,,,,,,
2,Afganistán,AFG,1752,0.0,,,,,,,
3,Afganistán,AFG,1753,0.0,,,,,,,
4,Afganistán,AFG,1754,0.0,,,,,,,


In [8]:
pd.ExcelFile(archivo).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

###**Parámetros de la función read_excel**

Documentación: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [9]:
percapita = pd.read_excel(archivo, sheet_name='emisiones_percapita')

In [10]:
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,


In [11]:
fuentes = pd.read_excel(archivo, sheet_name='fuentes')

In [12]:
fuentes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afganistán,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afganistán,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afganistán,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afganistán,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


In [13]:
intervalo = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols= 'A:D')

In [14]:
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [15]:
intervalo_2 = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols= 'A:D', nrows=10)

In [16]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0
1,Afganistán,AFG,1751,0
2,Afganistán,AFG,1752,0
3,Afganistán,AFG,1753,0
4,Afganistán,AFG,1754,0
5,Afganistán,AFG,1755,0
6,Afganistán,AFG,1756,0
7,Afganistán,AFG,1757,0
8,Afganistán,AFG,1758,0
9,Afganistán,AFG,1759,0


###**Escribiendo archivos Excel**

In [17]:
percapita.to_excel('co2_percapita.xlsx', index=False)

In [18]:
pd.read_excel('co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


###**Leyendo datos de Google Sheets**

link: https://docs.google.com/spreadsheets/d/1mRsV8OYjogOx_6neuNbboxvJaRpySydVN7mn6zBOn0I/edit?usp=sharing

In [19]:
sheet_id = '1mRsV8OYjogOx_6neuNbboxvJaRpySydVN7mn6zBOn0I'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [20]:
datos_co2_sheets = pd.read_csv(url)

In [21]:
datos_co2_sheets

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,0,,,,,,,
1,Afganistán,AFG,1751,0,,,,,,,
2,Afganistán,AFG,1752,0,,,,,,,
3,Afganistán,AFG,1753,0,,,,,,,
4,Afganistán,AFG,1754,0,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,36096739276,14506973805,12242627935,7144928128,1507923185,391992176,302294047,4749682
63100,Global,WLD,2018,36826506600,14746830688,12266016285,7529846784,1569218392,412115746,302478706,4792753
63101,Global,WLD,2019,37082558969,14725978025,12345653374,7647528220,1617506786,439253991,306638573,4775633
63102,Global,WLD,2020,35264085734,14174564010,11191808551,7556290283,1637537532,407583673,296301685,4497423


In [25]:
sheet_id = '1mRsV8OYjogOx_6neuNbboxvJaRpySydVN7mn6zBOn0I'
sheet_name = 'emisiones_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [26]:
percapita_sheets = pd.read_csv(url_percapita)

In [27]:
percapita_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
0,Afganistán,AFG,1750,,,,,,,
1,Afganistán,AFG,1751,,,,,,,
2,Afganistán,AFG,1752,,,,,,,
3,Afganistán,AFG,1753,,,,,,,
4,Afganistán,AFG,1754,,,,,,,


In [29]:
sheet_id = '1mRsV8OYjogOx_6neuNbboxvJaRpySydVN7mn6zBOn0I'
sheet_name = 'fuentes'
url_fuentes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [30]:
fuentes_sheets = pd.read_csv(url_fuentes)

In [31]:
fuentes_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganistán,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afganistán,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afganistán,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afganistán,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afganistán,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


##**Aula 3 - Leyendo archivos JSON**

###**Importando archivos JSON**

In [32]:
import pandas as pd

In [35]:
datos_pacientes = pd.read_json('pacientes.json')

In [36]:
datos_pacientes

Unnamed: 0,ID_paciente,Enfermedad_corazon,IMC,Fumador,Consumo_alcohol,AVC,Salud_fisica,Salud_mental,Dificultad_caminar,Sexo_biologico,Rango_edad,Raza,Diabetes,Actividad_fisica,Salud_general,Horas_sueño,Asma,Enfermedad_renal,Cancer_piel
0,0,No,16.60,Sí,No,No,3,30,No,Femenino,55-59,Blanca,Sí,Sí,Muy buena,5,Sí,No,Sí
1,1,No,20.34,No,No,Sí,0,0,No,Femenino,80 ó +,Blanca,No,Sí,Muy buena,7,No,No,No
2,2,No,26.58,Sí,No,No,20,30,No,Masculino,65-69,Blanca,Sí,Sí,Razonable,8,Sí,No,No
3,3,No,24.21,No,No,No,0,0,No,Femenino,75-79,Blanca,No,No,Buena,6,No,No,Sí
4,4,No,23.71,No,No,No,28,0,Sí,Femenino,40-44,Blanca,No,Sí,Muy buena,8,No,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,No,28.29,Sí,No,No,10,20,No,Femenino,65-69,Negra,Sí,Sí,Razonable,8,No,No,No
996,996,No,25.69,Sí,No,No,0,0,No,Femenino,75-79,Blanca,No,Sí,Excelente,8,No,No,No
997,997,Sí,26.99,No,No,No,1,0,No,Masculino,70-74,Blanca,No,Sí,Muy buena,8,No,No,No
998,998,No,44.29,No,No,No,30,0,Sí,Femenino,70-74,Blanca,Sí,No,Buena,6,Sí,No,No


In [41]:
datos_pacientes_2 = pd.read_json('pacientes_2.json')

In [42]:
datos_pacientes_2

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '01', 'Rango_edad': '55-59', 'Sexo_biol..."
1,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '02', 'Rango_edad': '80 ó +', 'Sexo_bio..."
2,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '03', 'Rango_edad': '65-69', 'Sexo_biol..."


###**Normalizando archivos JSON**

In [43]:
df_normalizado = pd.json_normalize(datos_pacientes_2['Pacientes'])

In [44]:
df_normalizado

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[diabetes, Asma]"


###**Escribiendo archivos JSON**

In [45]:
df_normalizado.to_json('historico_pacientes_norm.json')

In [46]:
pd.read_json('historico_pacientes_norm.json')

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[diabetes, Asma]"


##**Aula 4 - Leyendo páginas en HTML e XML**

###**Importando páginas web**

In [47]:
import pandas as pd

In [48]:
datos_html = pd.read_html('peliculas_wikipedia.html')

In [49]:
datos_html

[                                                    0  \
 0                                                1998   
 1                                                1999   
 2                                                2000   
 3                                                2001   
 4                                                2002   
 5                                                2003   
 6                                                2004   
 7                                                2005   
 8                                                2005   
 9                                                2006   
 10                                               2006   
 11                                               2007   
 12                                               2008   
 13  .mw-parser-output .hlist dl,.mw-parser-output ...   
 
                                                     1  
 0                                          100 Movies  
 1            

In [50]:
type(datos_html)

list

In [51]:
len(datos_html)

3

In [52]:
top_peliculas = datos_html[1]

In [53]:
top_peliculas

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
...,...,...,...,...,...
95,The Searchers,1956,John Ford,C. V. Whitney Pictures,96
96,Bringing Up Baby,1938,Howard Hawks,RKO Radio Pictures,97
97,Unforgiven,1992,Clint Eastwood,The Malpaso Company,98
98,Guess Who's Coming to Dinner,1967,Stanley Kramer,Columbia Pictures,99


###**Escribiendo archivos HTML**

In [54]:
top_peliculas.to_html('top_peliculas.html')

In [55]:
pd.read_html('top_peliculas.html')

[    Unnamed: 0                          Film  Release year  \
 0            0                  Citizen Kane          1941   
 1            1                    Casablanca          1942   
 2            2                 The Godfather          1972   
 3            3            Gone with the Wind          1939   
 4            4            Lawrence of Arabia          1962   
 ..         ...                           ...           ...   
 95          95                 The Searchers          1956   
 96          96              Bringing Up Baby          1938   
 97          97                    Unforgiven          1992   
 98          98  Guess Who's Coming to Dinner          1967   
 99          99           Yankee Doodle Dandy          1942   
 
                 Director                    Production companies  Rank  
 0           Orson Welles                      RKO Radio Pictures     1  
 1         Michael Curtiz                   Warner Bros. Pictures     2  
 2   Francis Ford Co

In [56]:
top_peliculas.to_csv('top_peliculas_1998', index=False)

In [57]:
datos = pd.read_csv('top_peliculas_1998')
datos.head()

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5


###**Leyendo/escribiendo archivos XML**


In [58]:
import pandas as pd

In [59]:
datos_imdb = pd.read_xml('imdb_top_1000.xml')

In [60]:
datos_imdb.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


In [61]:
datos_imdb.to_xml('peliculas_imdb.xml')

##**Aula 5 - Leyendo banco de datos**

###**Creando un banco de datos local**

In [62]:
import sqlalchemy

In [77]:
from sqlalchemy import create_engine, MetaData, Table, inspect, text

In [153]:
engine = create_engine('sqlite:///:memory:')

###**Escribiendo en un banco de datos**

In [65]:
import pandas as pd

In [66]:
archivo = 'clientes_banco.csv'

In [121]:
datos = pd.read_csv(archivo)

In [122]:
datos.head()

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio


In [154]:
datos.to_sql('clientes', engine, index=False)

438463

In [155]:
inspector = inspect(engine)

In [156]:
print(inspector.get_table_names())

['clientes']


###**Leyendo una consulta SQL**

In [157]:
query = 'SELECT * FROM clientes WHERE Categoria_de_renta = "Empleado"'

In [158]:
empleados = pd.read_sql(sql=text(query), con=engine.connect())

In [159]:
empleados

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226055,6837906,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226056,6839936,34,Nivel intermedio,Casado,3,Empleado,Construcción Civil,5,135000.0,1,Casa/Departamento propio
226057,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio


In [160]:
empleados.to_sql('empleados', con=engine.connect(), index=False)

226059

In [161]:
pd.read_sql_table('empleados', con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226055,6837906,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226056,6839936,34,Nivel intermedio,Casado,3,Empleado,Construcción Civil,5,135000.0,1,Casa/Departamento propio
226057,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio


In [162]:
pd.read_sql_table('empleados', con=engine.connect(), columns=['ID_Cliente', 'Grado_estudio','Rendimiento_anual'])

Unnamed: 0,ID_Cliente,Grado_estudio,Rendimiento_anual
0,5008804,Nivel superior,427500.0
1,5008805,Nivel superior,427500.0
2,5008806,Nivel intermedio,112500.0
3,5008815,Nivel superior,270000.0
4,5112956,Nivel superior,270000.0
...,...,...,...
226054,6837905,Nivel intermedio,355050.0
226055,6837906,Nivel intermedio,355050.0
226056,6839936,Nivel intermedio,135000.0
226057,6840222,Nivel intermedio,103500.0


###**Actualizando un banco de datos**

In [163]:
query = 'SELECT * FROM clientes'

In [164]:
pd.read_sql(sql=text(query), con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438459,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438460,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438461,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [165]:
#Borrando registros
from sqlalchemy.exc import SQLAlchemyError
query = "DELETE FROM clientes WHERE ID_Cliente=5008804"
try:
  r_set=engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
  print("#Registros borrados: ",r_set.rowcount)

#Registros borrados:  1


In [166]:
pd.read_sql_table('clientes', con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [167]:
#Actualizando registros
query = 'UPDATE clientes SET Grado_estudio="Nivel superior" WHERE ID_Cliente=5008808'
try:
  r_set=engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
  print("#Registros actualizados: ",r_set.rowcount)

#Registros actualizados:  1


In [168]:
pd.read_sql_table('clientes', con=engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel superior,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [170]:
inspector = inspect(engine)
print(inspector.get_table_names())

['clientes', 'empleados']
