<a href="https://colab.research.google.com/github/dialejo/panda-project/blob/main/Panda_project_csv.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Leyendo archivos CSV**

**¿Qué es esto de UTF-8?**

El error de encoding ocurre cuando la biblioteca Pandas no puede interpretar correctamente los caracteres en un archivo CSV. Esto puede suceder cuando contiene caracteres especiales que la biblioteca Pandas no reconoce o cuando se guardó en un formato de codificación diferente al esperado.

Para resolver este error, es necesario identificar la codificación correcta del archivo CSV y especificarla al cargar el archivo con la biblioteca Pandas. Esta codificación predeterminada es UTF-8, pero en algunos casos, es posible que el archivo se haya guardado con una codificación diferente, como ISO-8859-1.

UTF-8 es una codificación de caracteres universal que se utiliza para representar caracteres de diferentes idiomas de una manera compatible con Internet y los sistemas de computadora en general. Las siglas UTF significan Unicode Transformation Format (Formato de Transformación Unicode) y el número 8 indica que esta codificación asocia una secuencia de 1 a 4 bytes (8 a 32 bits) a cada carácter.

La codificación UTF-8 se usa ampliamente en Internet y en sistemas informáticos de todo el mundo, ya que permite representar caracteres de diferentes idiomas en un solo conjunto de caracteres. Además, esta codificación puede preservar la compatibilidad con codificaciones más antiguas como ASCII, lo que la convierte en una opción popular para crear y compartir archivos de texto.

Hay algunas formas de resolver esto, sin embargo, tendremos la oportunidad de experimentar una forma práctica de hacerlo en el propio Google Colab. ¿Vamos allá?

Podemos usar una biblioteca llamada chardet para detectar el encoding de un archivo CSV. Para usar esta biblioteca en Google Colab, simplemente importela:

In [1]:
import chardet
with open('/content/drive/MyDrive/raw data/superstore_data_punto_coma.csv', 'rb') as file:
    print(chardet.detect(file.read()))


{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


Observe que la primera línea de este código abre el archivo CSV en modo de lectura binaria rb y asigna el objeto del archivo devuelto a una variable llamada file.

En la segunda línea de código, el contenido del archivo CSV se lee usando el método read() y el resultado se pasa a la función chardet.detect(), que devuelve un diccionario que contiene información sobre la codificación más probable del archivo. El resultado se imprime con la función print() que muestra la codificación y la confianza asociada con esa codificación.

Ahora se sabe que es probable que el archivo CSV esté codificado con ascii con una confianza de 1.0. Para especificar la codificación correcta al cargar el archivo CSV con la biblioteca Pandas, puede utilizar un parámetro llamado encoding: df = pd.read_csv('/content/sample_data/superstore_data.csv', encoding='ascii')


##datos separados con ,

In [2]:
import pandas as pd

In [3]:
url = '/content/drive/MyDrive/raw data/superstore_data.csv'
datos = pd.read_csv(url)
datos

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10142,1976,PhD,Divorced,66476.0,0,1,7/3/2013,99,372,...,47,48,78,2,5,2,11,4,0,0
2236,5263,1977,2n Cycle,Married,31056.0,1,0,1/22/2013,99,5,...,3,8,16,1,1,0,3,8,0,0
2237,22,1976,Graduation,Divorced,46310.0,1,0,3/12/2012,99,185,...,15,5,14,2,6,1,5,8,0,0
2238,528,1978,Graduation,Married,65819.0,0,0,11/29/2012,99,267,...,149,165,63,1,5,4,10,3,0,0


In [4]:
datos.head(5)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [5]:
datos.shape

(2240, 22)

##datos separados con ;

In [6]:
url2 = '/content/drive/MyDrive/raw data/superstore_data_punto_coma.csv'
datos2 = pd.read_csv(url2, sep=';')
datos2

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10142,1976,PhD,Divorced,66476.0,0,1,7/3/2013,99,372,...,47,48,78,2,5,2,11,4,0,0
2236,5263,1977,2n Cycle,Married,31056.0,1,0,1/22/2013,99,5,...,3,8,16,1,1,0,3,8,0,0
2237,22,1976,Graduation,Divorced,46310.0,1,0,3/12/2012,99,185,...,15,5,14,2,6,1,5,8,0,0
2238,528,1978,Graduation,Married,65819.0,0,0,11/29/2012,99,267,...,149,165,63,1,5,4,10,3,0,0


In [7]:
datos2.head(5)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [8]:
datos2.shape

(2240, 22)

In [9]:
datos2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 22 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

In [10]:
datos2.isna().sum()

Unnamed: 0,0
Id,0
Year_Birth,0
Education,0
Marital_Status,0
Income,24
Kidhome,0
Teenhome,0
Dt_Customer,0
Recency,0
MntWines,0


##**Parametros de funcion read_csv**

Documentacion: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [11]:
datos_primeras_lineas = pd.read_csv(url,nrows = 5)
datos_primeras_lineas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [12]:
Datos_seleccion_columns = pd.read_csv(url,usecols=['Id','Year_Birth','Income'])
Datos_seleccion_columns

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [13]:
import datetime
Datos_seleccion_columns['Age'] = Datos_seleccion_columns['Year_Birth'].apply(lambda x: datetime.datetime.now().year - x)

Datos_seleccion_columns

Unnamed: 0,Id,Year_Birth,Income,Age
0,1826,1970,84835.0,55
1,1,1961,57091.0,64
2,10476,1958,67267.0,67
3,1386,1967,32474.0,58
4,5371,1989,21474.0,36
...,...,...,...,...
2235,10142,1976,66476.0,49
2236,5263,1977,31056.0,48
2237,22,1976,46310.0,49
2238,528,1978,65819.0,47


In [14]:
filtro = Datos_seleccion_columns['Age']<78
Dfiltrados = Datos_seleccion_columns[filtro]
Dfiltrados

Unnamed: 0,Id,Year_Birth,Income,Age
0,1826,1970,84835.0,55
1,1,1961,57091.0,64
2,10476,1958,67267.0,67
3,1386,1967,32474.0,58
4,5371,1989,21474.0,36
...,...,...,...,...
2235,10142,1976,66476.0,49
2236,5263,1977,31056.0,48
2237,22,1976,46310.0,49
2238,528,1978,65819.0,47


In [15]:
Datos_seleccion_columns['Age'].unique()

array([ 55,  64,  67,  58,  36,  71,  78,  46,  66,  44,  56,  48,  65,
        59,  49,  60,  69,  50,  54,  39,  53,  51,  35,  38,  41,  57,
        70,  42,  52,  47,  73,  63,  61,  43,  62,  68,  45,  80,  76,
        77,  72,  79,  40,  33,  81,  74,  37,  75,  31,  32,  34, 132,
        29,  30, 126,  82,  84,  85, 125])

##**Guardando archivo CSV**

In [16]:
Datos_seleccion_columns.to_csv('/content/drive/MyDrive/raw data/Clientes_mercado.csv',index=False)

In [17]:
Clientes_mercado = pd.read_csv('/content/drive/MyDrive/raw data/Clientes_mercado.csv')
Clientes_mercado

Unnamed: 0,Id,Year_Birth,Income,Age
0,1826,1970,84835.0,55
1,1,1961,57091.0,64
2,10476,1958,67267.0,67
3,1386,1967,32474.0,58
4,5371,1989,21474.0,36
...,...,...,...,...
2235,10142,1976,66476.0,49
2236,5263,1977,31056.0,48
2237,22,1976,46310.0,49
2238,528,1978,65819.0,47


Para aprovechar al máximo todas las funciones de la biblioteca, es esencial explorar su documentación, que es extensa y está bien organizada, y a la que se puede acceder fácilmente en línea. Consulta las indicaciones:

Función read_csv: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

Función to_csv: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html


##**Ejercicio**

In [18]:
import chardet
import pandas as pd
with open('/content/drive/MyDrive/raw data/datos_sus.csv','rb') as file:
  print(chardet.detect(file.read()))


{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [19]:

url3= '/content/drive/MyDrive/raw data/datos_sus.csv'
datos3 = pd.read_csv(url3,sep=';',encoding='ISO-8859-1',skiprows=3,skipfooter=9,engine='python')
datos3.sample(5)

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
27,Total,40842485923,61317426921,66404305838,68666286142,71580363949,75218156364,76499028476,75060864828,75296264215,...,148401041762,151416082372,147790446614,148998314621,146419639575,144119960505,151399119649,150061229936,168756213838,17248176013888
19,São Paulo,9167847348,14867752682,15608726923,16122712543,18711939764,18729112607,19439839948,18485451635,18863635955,...,36764899672,34990096968,35411725442,34573306879,33508486566,33048904598,35514952560,34882713099,39294614742,4139660430413
16,Minas Gerais,4567165976,7019403710,7923133695,7713653758,8055444063,9475852283,8536006411,8472252810,8460175795,...,16575995594,17104809395,17543969653,17827915274,17525322691,17250943562,17472216198,17727069434,20047104507,2041873753666
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229
12,Pernambuco,1439394989,2418140095,2999130271,3480619797,3214798735,3223909489,3268564076,3545703866,3366826146,...,7491467743,7723288101,7171567742,6655562825,7890417621,7097805215,8384622244,7556266469,8387099273,858118997591


#**Leyendo archivos excel**

##**importando el archivo .xlsx

In [20]:
url4 = '/content/drive/MyDrive/raw data/emisiones_CO2.xlsx'

datos_co2=pd.read_excel(url4)

datos_co2.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
13139,Cuba,CUB,1833,0.0,,,,,,,
9289,Canadá,CAN,1791,3664.0,3664.0,0.0,0.0,,0.0,,
56770,Tonga,TON,1944,0.0,,,,,,,
43433,Perú,PER,1935,7166546.0,227168.0,6910304.0,0.0,29074.0,0.0,,
29318,Kuwait,KWT,1964,25314576.0,0.0,4341212.0,3216526.0,0.0,17756838.0,,54352517.0


In [21]:
pd.ExcelFile(url4).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

In [22]:
datos_co2_sheet1 = pd.read_excel(url4,sheet_name='emisiones_C02')
datos_co2_sheet1.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
40899,Noruega,NOR,1849,106256.0,106256.0,0.0,0.0,,0.0,,77186.0
3290,Austria,AUT,1776,0.0,,,,,,,
6377,Bután,BTN,1871,0.0,,,,,,,
3425,Austria,AUT,1911,49141568.0,49141568.0,0.0,0.0,,0.0,,7368656.0
53199,San Cristóbal Y Nieves-Anguila,KNA,1909,0.0,,,,,,,


##**xls**

El formato xls es un formato de archivo de Excel más antiguo y se utilizó hasta la versión de 2003.

##**xlsx**

El formato xlsx es el formato de archivo de Excel predeterminado a partir de la versión 2007. Este formato se basa en XML(Extensible Markup Language - Lenguaje de marcación extensible) y es ampliamente compatible con otras herramientas de hojas de cálculo online, incluida Google Sheets.

##**xlsm**

También existe xlsm, una extensión de archivo utilizada por Excel para almacenar hojas de cálculo que contienen macros. Son secuencias de comandos o instrucciones que se pueden ejecutar automáticamente para realizar tareas específicas en la hoja de trabajo.

Entonces, el formato xlsm permite guardar las macros junto con la hoja de trabajo, de modo que puedan ejecutarse cada vez que se abra la hoja de trabajo.



##**xlsb**

Por último, tenemos el formato xlsb, una extensión de archivo que utiliza Excel para almacenar hojas de cálculo en formato binario. La codificación binaria permite abrir y guardar hojas de cálculo más rápido que aquellas en formato xlsx.

Los formatos odf, ods y odt son archivos abiertos, gratuitos y universales que pueden ser utilizados por cualquier software, es decir, fueron creados para ser independientes de plataformas, esto quiere decir que pueden ser utilizados en diferentes sistemas operativos, como Windows, Linux y Mac OS.

Además, son independientes de aplicaciones y se pueden utilizar en muchos programas diferentes, incluidos OpenOffice, LibreOffice, Google Docs y Microsoft Office. Este estándar de archivos fue creado y es mantenido por OASIS (Organization for the Advancement of Structured Information Standards), una organización internacional creada para desarrollar y promover estándares digitales para su uso en Internet.

¡Muy bien! Ahora sabemos un poco más sobre todos los tipos de archivos que se pueden leer con la función read_excel.

Formatos de archivo compatibles con Excel:https://support.microsoft.com/es-es/office/formatos-de-archivo-que-admite-excel-0943ff2c-6014-4e8d-aaea-b83d51d46247

OpenDocument: https://pt.wikipedia.org/wiki/OpenDocument

In [23]:
datos_co2_sheet2 = pd.read_excel(url4, sheet_name='emisiones_percapita')
datos_co2_sheet2.tail(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0
63103,Global,WLD,2021,4693699.0,1893923.0,1496614.0,1001585.0,211472.0,52663.0,37443.0


In [24]:
datos_co2_sheet3 = pd.read_excel(url4, sheet_name='fuentes')
datos_co2_sheet3.tail(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63103,Global,WLD,2021,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


In [25]:
datos_co2_sheet3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   País                63104 non-null  object
 1   ISO 3166-1 alpha-3  61472 non-null  object
 2   Año                 63104 non-null  int64 
 3   Total               63104 non-null  object
 4   Carbón              63104 non-null  object
 5   Aceite              63104 non-null  object
 6   Gas                 63104 non-null  object
 7   Cemento             63104 non-null  object
 8   Quema               63104 non-null  object
 9   Otros               63104 non-null  object
 10  Per Capita          63104 non-null  object
dtypes: int64(1), object(10)
memory usage: 5.3+ MB


In [26]:
datos_co2_sheet1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Año                 63104 non-null  int64  
 3   Total               62904 non-null  float64
 4   Carbón              21744 non-null  float64
 5   Aceite              21717 non-null  float64
 6   Gas                 21618 non-null  float64
 7   Cemento             20814 non-null  float64
 8   Quema               21550 non-null  float64
 9   Otros               1620 non-null   float64
 10  Per Capita          18974 non-null  float64
dtypes: float64(8), int64(1), object(2)
memory usage: 5.3+ MB


In [27]:
datos_co2_sheet2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Año                 63104 non-null  int64  
 3   Total               18972 non-null  float64
 4   Carbón              17138 non-null  float64
 5   Aceite              17039 non-null  float64
 6   Gas                 17012 non-null  float64
 7   Cemento             15448 non-null  float64
 8   Quema               16944 non-null  float64
 9   Otros               1620 non-null   float64
dtypes: float64(7), int64(1), object(2)
memory usage: 4.8+ MB


In [28]:
intervalo = pd.read_excel(url4,sheet_name='emisiones_C02',usecols='A:D')
intervalo.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
43347,Perú,PER,1849,0.0
32687,Macao,MAC,1797,0.0
47178,Rusia,RUS,1872,3281340.0
4580,Bangladesh,BGD,1978,5984423.0
19091,Francia,FRA,1801,0.0


In [29]:
intervalo_2 = pd.read_excel(url4,sheet_name='emisiones_C02',usecols='A:D',nrows=10)
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0
1,Afganistán,AFG,1751,0
2,Afganistán,AFG,1752,0
3,Afganistán,AFG,1753,0
4,Afganistán,AFG,1754,0
5,Afganistán,AFG,1755,0
6,Afganistán,AFG,1756,0
7,Afganistán,AFG,1757,0
8,Afganistán,AFG,1758,0
9,Afganistán,AFG,1759,0


## **Exportando el archivo Excel**

In [30]:
intervalo.to_excel('/content/drive/MyDrive/raw data/co2_percapita.xlsx', index= False)

In [31]:
pd.read_excel('/content/drive/MyDrive/raw data/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


#**Leyendo archivos Excel online google sheets**

link: https://docs.google.com/spreadsheets/d/1KZvjX5mRMd9OtXzgQQN3C6PJ16eA3Tve/edit?usp=sharing&ouid=104604062504128659121&rtpof=true&sd=true

id:1KZvjX5mRMd9OtXzgQQN3C6PJ16eA3Tve

/gviz/tq:conexcion entre colba y google sheet

?tqx=out:csv : formato de salida

&sheet: la hoja que quiero leer
si quieres otra sheet:

sheet_name = 'emisiones_percapita'

&sheet={sheet_name]

In [32]:
sheet_id = '1KZvjX5mRMd9OtXzgQQN3C6PJ16eA3Tve'
url5 = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'
datos4 = pd.read_csv(url5)
datos4.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
5584,Belice,BLZ,1894,0.0
44525,Portugal,PRT,1939,4751019.0
45126,Katar,QAT,1996,31668365.0
18926,Zona Del Canal De Panamá,PCZ,1908,0.0
35790,Mauricio,MUS,1908,0.0


Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Tenemos un link de Google Sheets que contiene datos importantes sobre las emisiones de dióxido de carbono en todo el mundo. El conjunto de datos se obtuvo de Kaggle y consta de las emisiones de CO2 per cápita de todos los países del mundo entre 1990 y 2019.

1. En este desafío, tu función es leer este link de Google Sheets y luego guardar el DataFrame obtenido en formato CSV. ¿Listo para comenzar?

link = https://docs.google.com/spreadsheets/d/1DVNjtDTjFomzpLCEbm9l9ODutqTnOffQ4-MZHpxfoYg/edit?usp=sharing

id = 1DVNjtDTjFomzpLCEbm9l9ODutqTnOffQ4-MZHpxfoYg

In [33]:
id_emisiones = '1DVNjtDTjFomzpLCEbm9l9ODutqTnOffQ4-MZHpxfoYg'
sheet_name = 'CO2_emission'
url6 = f'https://docs.google.com/spreadsheets/d/{id_emisiones}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [34]:
emisiones_co2 = pd.read_csv(url6)
emisiones_co2.head()

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191745115.0,167681579.0,95957742.0,8472111.0,75545827.0,68467956.0,...,29650624.0,259295334.0,18562366.0,146235617.0,172896741.0,149789334.0,131694556.0,1632953.0,159824372.0,159824372.0
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553661955.0,544538649.0,543557223.0,70898423.0,836804405.0,912141485.0,...,985522312.0,950695879.0,1036293852.0,1099779111.0,113504405.0,1031811348.0,81330073.0,777674934.0,792137069.0,792137069.0
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1819541634.0,124281022.0,683699826.0,638307036.0,645355189.0,605436253.0,...,166942319.0,150324046.0,1533630039.0,1668337371.0,160377515.0,1557664358.0,1788786074.0,1782738948.0,169224832.0,169224832.0
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7521831658.0,723537924.0,69630787.0,6724177518.0,6541578914.0,6733479486.0,...,5850886105.0,5944654173.0,5942800412.0,5807127723.0,6026181822.0,6080600282.0,6104133912.0,6362975399.0,6481217432.0,6481217432.0


In [35]:
emisiones_co2.to_csv('/content/drive/MyDrive/raw data/emisiones_co2.csv',index=False)

#**Leyendo archivos Json**

In [36]:
datos4 = pd.read_json('/content/drive/MyDrive/raw data/pacientes.json')
datos4.head()

Unnamed: 0,ID_paciente,Enfermedad_corazon,IMC,Fumador,Consumo_alcohol,AVC,Salud_fisica,Salud_mental,Dificultad_caminar,Sexo_biologico,Rango_edad,Raza,Diabetes,Actividad_fisica,Salud_general,Horas_sueño,Asma,Enfermedad_renal,Cancer_piel
0,0,No,16.6,Sí,No,No,3,30,No,Femenino,55-59,Blanca,Sí,Sí,Muy buena,5,Sí,No,Sí
1,1,No,20.34,No,No,Sí,0,0,No,Femenino,80 ó +,Blanca,No,Sí,Muy buena,7,No,No,No
2,2,No,26.58,Sí,No,No,20,30,No,Masculino,65-69,Blanca,Sí,Sí,Razonable,8,Sí,No,No
3,3,No,24.21,No,No,No,0,0,No,Femenino,75-79,Blanca,No,No,Buena,6,No,No,Sí
4,4,No,23.71,No,No,No,28,0,Sí,Femenino,40-44,Blanca,No,Sí,Muy buena,8,No,No,No


In [37]:
datos5 = pd.read_json('/content/drive/MyDrive/raw data/pacientes_2.json')
datos5.head()

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '01', 'Rango_edad': '55-59', 'Sexo_biol..."
1,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '02', 'Rango_edad': '80 ó +', 'Sexo_bio..."
2,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '03', 'Rango_edad': '65-69', 'Sexo_biol..."


##**Normalizando archivos JSON**

como extraer informacion cuando el archivo json tiene llaves anidadas, muy comun con los archivos Json, indicar la columna donde estan los problemas

In [38]:
df_normalizado = pd.json_normalize(datos5['Pacientes'])
df_normalizado.head()

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


La normalización de datos es un proceso importante en la ciencia de datos que tiene como objetivo organizar y estandarizar datos para facilitar el análisis y la comparación entre ellos. Cuando se trata de datos en formato JSON (JavaScript Object Notation - Notación de objetos JavaScript), es común que estén anidados, lo que puede dificultar su análisis y manipulación.

###**Normalizando un JSON simple**

In [39]:
datos7 = {'Análisis': 'Principales indicadores de enfermedad cardíaca', 'Año': 2020, 'Numero_Pacientes':3}


Para normalizar esta variable, podemos pasarla dentro de la función json_normalize y analizar el DataFrame obtenido:

In [40]:
df = pd.json_normalize(datos7)
df


Unnamed: 0,Análisis,Año,Numero_Pacientes
0,Principales indicadores de enfermedad cardíaca,2020,3


###**Normalizando un JSON con múltiples niveles**

Hay situaciones en las que el archivo JSON puede contener más de un objeto, como es el caso del siguiente ejemplo, en el que tenemos una lista, almacenada en la variable json_lista, que contiene dos objetos JSON:

In [41]:
json_lista = [
    { 'ID': '01', 'Intervalo_edad': '55-59', 'Sexo_biologico': 'femenino'},
    { 'ID': '02', 'Intervalo_edad': '80 ó +', 'Sexo_biologico': 'femenino'}
]


In [42]:
pd.json_normalize(json_lista)


Unnamed: 0,ID,Intervalo_edad,Sexo_biologico
0,1,55-59,femenino
1,2,80 ó +,femenino


###**Normalizando un JSON con una lista anidada**

Bueno, notamos que la función json_normalize() funciona muy bien en las situaciones anteriores, pero ¿qué pasa en otras situaciones?

Datos como un diccionario

Iniciemos observando la normalización cuando los datos son un diccionario. Tenemos un diccionario almacenado en la variable json_obj. Observe que en la llave “Salud” tenemos otro diccionario:

In [43]:
json_obj = {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      }


In [44]:
pd.json_normalize(json_obj)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico,Salud.Dificultad_caminar,Salud.Actividad_fisica,Salud.IMC,Salud.Enfermedad_cardiaca
0,1,55-59,Femenino,No,Sí,16.6,No


In [45]:
json_list = [
    {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      },
      {
          'ID': '02',
          'Intervalo_edad': '80 ó +',
          'Sexo_biologico': 'Femenino',
          'Salud': {'Dificultad_caminar': 'No',
                    'Actividad_fisica': 'Sí',
                    'IMC': 20.34,
                    'Enfermedad_cardiaca': 'Sí'}
       }
       ]


In [46]:
pd.json_normalize(json_list)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico,Salud.Dificultad_caminar,Salud.Actividad_fisica,Salud.IMC,Salud.Enfermedad_cardiaca
0,1,55-59,Femenino,No,Sí,16.6,No
1,2,80 ó +,Femenino,No,Sí,20.34,Sí


Podemos ver que todos los valores anidados dentro de cada registro de la lista se han convertido en columnas separadas. ¿Qué pasa con los datos que normalizamos en el video anterior? ¿Recuerdas cómo su normalización se hizo de otra manera?

Resumiendo, vamos a copiar los datos del archivo paciente_2.json y vamos a guardarlos en una variable llamada datos_dict.

In [47]:
datos_dict = {
  "Investigación": "Indicadores clave de enfermedades cardíacas",
  "Año": 2020,
  "Pacientes": [
    {
     "ID": "01",
      "Rango_edad": "55-59",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 16.6,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 3,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 5,
      "Problemas_salud": [
        "Diabetes",
        "Asma",
        "Cancer_piel"
      ]
    },
    {
      "ID": "02",
      "Rango_edad": "80 ó +",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 20.34,
      "Fumador": "No",
      "Consumo_alcohol": "No",
      "Salud_física": 0,
      "Salud_mental": 0,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 7,
      "Problemas_salud": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Rango_edad": "65-69",
      "Sexo_biologico": "Masculino",
      "Raza": "Blanca",
      "IMC": 26.58,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 20,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 8,
      "Problemas_salud": [
        "Diabetes",
        "Asma"
      ]
    }
  ]
}


In [48]:
pd.json_normalize(datos_dict)

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"[{'ID': '01', 'Rango_edad': '55-59', 'Sexo_bio..."


Podemos observar que nuestra lista anidada está colocada en una única columna Pacientes. Entonces, usaremos el siguiente código para normalizar los datos, especificando qué columna está anidada:

In [49]:
pd.json_normalize(datos_dict['Pacientes'])

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


También podemos hacer esto usando el parámetro record_path como ['Pacientes']. Este parámetro se utiliza en la función pd.json_normalize() para especificar la ruta a los registros que deben ser normalizados en un DataFrame separado:

In [50]:
pd.json_normalize(datos_dict, record_path=['Pacientes'])


Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


In [51]:
pd.json_normalize(
    datos_dict,
    record_path =['Pacientes'],
    meta=['Investigación', 'Año']
)


Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud,Investigación,Año
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]",Indicadores clave de enfermedades cardíacas,2020
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC],Indicadores clave de enfermedades cardíacas,2020
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]",Indicadores clave de enfermedades cardíacas,2020


##**Exportando JSON**

In [52]:
df_normalizado.to_json('/content/drive/MyDrive/raw data/pacientes_normalizados.json')

In [53]:
pd.read_json('/content/drive/MyDrive/raw data/pacientes_normalizados.json')

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


##**Ejercicio JSON**

Una forma común de acceder a las API es a través de la biblioteca requests. Para eso, también es necesario importar el módulo json:

In [54]:
import requests
import json
datos_frutas = requests.get('https://fruityvice.com/api/fruit/all')

In [55]:
resultado = json.loads(datos_frutas.text)
resultado

[{'name': 'Persimmon',
  'id': 52,
  'family': 'Ebenaceae',
  'order': 'Rosales',
  'genus': 'Diospyros',
  'nutritions': {'calories': 81,
   'fat': 0.0,
   'sugar': 18.0,
   'carbohydrates': 18.0,
   'protein': 0.0}},
 {'name': 'Strawberry',
  'id': 3,
  'family': 'Rosaceae',
  'order': 'Rosales',
  'genus': 'Fragaria',
  'nutritions': {'calories': 29,
   'fat': 0.4,
   'sugar': 5.4,
   'carbohydrates': 5.5,
   'protein': 0.8}},
 {'name': 'Banana',
  'id': 1,
  'family': 'Musaceae',
  'order': 'Zingiberales',
  'genus': 'Musa',
  'nutritions': {'calories': 96,
   'fat': 0.2,
   'sugar': 17.2,
   'carbohydrates': 22.0,
   'protein': 1.0}},
 {'name': 'Tomato',
  'id': 5,
  'family': 'Solanaceae',
  'order': 'Solanales',
  'genus': 'Solanum',
  'nutritions': {'calories': 74,
   'fat': 0.2,
   'sugar': 2.6,
   'carbohydrates': 3.9,
   'protein': 0.9}},
 {'name': 'Pear',
  'id': 4,
  'family': 'Rosaceae',
  'order': 'Rosales',
  'genus': 'Pyrus',
  'nutritions': {'calories': 57,
   'fat': 

In [56]:
Resultado_frustas = pd.DataFrame(resultado)
Resultado_frustas.head()

Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."


In [57]:
resultado_nutritions = pd.json_normalize(Resultado_frustas['nutritions'])
resultado_nutritions.head()

Unnamed: 0,calories,fat,sugar,carbohydrates,protein
0,81,0.0,18.0,18.0,0.0
1,29,0.4,5.4,5.5,0.8
2,96,0.2,17.2,22.0,1.0
3,74,0.2,2.6,3.9,0.9
4,57,0.1,10.0,15.0,0.4


#**Leyendo archivos HTML, XML**

In [58]:
datos7 = pd.read_html('/content/drive/MyDrive/raw data/peliculas_wikipedia.html')
datos7

[       0                      1
 0   1998             100 Movies
 1   1999              100 Stars
 2   2000             100 Laughs
 3   2001            100 Thrills
 4   2002           100 Passions
 5   2003  100 Heroes & Villains
 6   2004              100 Songs
 7   2005       100 Movie Quotes
 8   2005              25 Scores
 9   2006             100 Cheers
 10  2006            25 Musicals
 11  2007   100 Movies (Updated)
 12  2008        AFI's 10 Top 10
 13   vte                    vte,
                             Film  Release year              Director  \
 0                   Citizen Kane          1941          Orson Welles   
 1                     Casablanca          1942        Michael Curtiz   
 2                  The Godfather          1972  Francis Ford Coppola   
 3             Gone with the Wind          1939        Victor Fleming   
 4             Lawrence of Arabia          1962            David Lean   
 ..                           ...           ...                   

In [59]:
top_peliculas = datos7[1]
top_peliculas.sample(5)

Unnamed: 0,Film,Release year,Director,Production companies,Rank
51,From Here to Eternity,1953,Fred Zinnemann,Columbia Pictures,52
17,Psycho,1960,Alfred Hitchcock,Shamley Productions,18
31,The Godfather Part II,1974,Francis Ford Coppola,The Coppola Company,32
90,My Fair Lady,1964,George Cukor,Warner Bros. Pictures,91
53,All Quiet on the Western Front,1930,Lewis Milestone,Universal Pictures,54


##**Exportar a HTML**

In [60]:
top_peliculas.to_html('/content/drive/MyDrive/raw data/top_peliculas.html',index=False)

In [61]:
pd.read_html('/content/drive/MyDrive/raw data/top_peliculas.html')

[                            Film  Release year              Director  \
 0                   Citizen Kane          1941          Orson Welles   
 1                     Casablanca          1942        Michael Curtiz   
 2                  The Godfather          1972  Francis Ford Coppola   
 3             Gone with the Wind          1939        Victor Fleming   
 4             Lawrence of Arabia          1962            David Lean   
 ..                           ...           ...                   ...   
 95                 The Searchers          1956             John Ford   
 96              Bringing Up Baby          1938          Howard Hawks   
 97                    Unforgiven          1992        Clint Eastwood   
 98  Guess Who's Coming to Dinner          1967        Stanley Kramer   
 99           Yankee Doodle Dandy          1942        Michael Curtiz   
 
                       Production companies  Rank  
 0                       RKO Radio Pictures     1  
 1                

In [62]:
top_peliculas.to_csv('/content/drive/MyDrive/raw data/top_peliculas.csv',index=False)

In [63]:
pd.read_csv('/content/drive/MyDrive/raw data/top_peliculas.csv')


Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
...,...,...,...,...,...
95,The Searchers,1956,John Ford,C. V. Whitney Pictures,96
96,Bringing Up Baby,1938,Howard Hawks,RKO Radio Pictures,97
97,Unforgiven,1992,Clint Eastwood,The Malpaso Company,98
98,Guess Who's Coming to Dinner,1967,Stanley Kramer,Columbia Pictures,99


## **Leyendo un archivo XML**

In [64]:
url7 = '/content/drive/MyDrive/raw data/imdb_top_1000.xml'
datos8 = pd.read_xml(url7)
datos8.tail(5)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
995,995,https://m.media-amazon.com/images/M/MV5BNGEwMT...,Breakfast at Tiffany's,1961,A,115 min,"Comedy, Drama, Romance",7.6,A young New York socialite becomes interested ...,76.0,Blake Edwards,Audrey Hepburn,George Peppard,Patricia Neal,Buddy Ebsen,166544,
996,996,https://m.media-amazon.com/images/M/MV5BODk3Yj...,Giant,1956,G,201 min,"Drama, Western",7.6,Sprawling epic covering the life of a Texas ca...,84.0,George Stevens,Elizabeth Taylor,Rock Hudson,James Dean,Carroll Baker,34075,
997,997,https://m.media-amazon.com/images/M/MV5BM2U3Yz...,From Here to Eternity,1953,Passed,118 min,"Drama, Romance, War",7.6,"In Hawaii in 1941, a private is cruelly punish...",85.0,Fred Zinnemann,Burt Lancaster,Montgomery Clift,Deborah Kerr,Donna Reed,43374,30500000.0
998,998,https://m.media-amazon.com/images/M/MV5BZTBmMj...,Lifeboat,1944,,97 min,"Drama, War",7.6,Several survivors of a torpedoed merchant ship...,78.0,Alfred Hitchcock,Tallulah Bankhead,John Hodiak,Walter Slezak,William Bendix,26471,
999,999,https://m.media-amazon.com/images/M/MV5BMTY5OD...,The 39 Steps,1935,,86 min,"Crime, Mystery, Thriller",7.6,A man in London tries to help a counter-espion...,93.0,Alfred Hitchcock,Robert Donat,Madeleine Carroll,Lucie Mannheim,Godfrey Tearle,51853,


###**Exportando el archivo xml**

In [65]:
datos8.to_xml('/content/drive/MyDrive/raw data/datos_peliculas.xml',index=False)

##**Ejercicio**

Vanessa es una científica de datos que está haciendo algunos análisis con datos ambientales. Está desarrollando un proyecto para evaluar el impacto ambiental de las actividades humanas en diferentes países del mundo, pero para ello necesita estimaciones de población de esos países. Al buscar en Internet, encontró una tabla de estimaciones de población en un artículo de la página de Wikipedia.

Al igual que Vanessa, tu desafío es obtener un DataFrame de la tabla que contiene la información del número de habitantes de cada país.

In [66]:
url8 = '/content/drive/MyDrive/raw data/paises_poblacion.html'

datos9 = pd.read_html(url8)[0]
datos9.head(5)

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,1,India,1 417 492 000,1754,90,12 692 000,1523,78,1 417 492 000,1/07/2025,A,web.archive.org
1,2,China[12]​,1 407 934 000,1742,-5,-1 390 000,-,-,1 408 280 000,31/12/2024,E,www.stats.gov.cn
2,3,Estados Unidos,342 181 000,423,61,2 084 000,250,114,341 789 000,17/05/2025,R,www.census.gov
3,4,Indonesia,285 783 000,354,117,3 337 000,400,60,282 477 584,30/06/2024,E,dispendukcapil.acehtimurkab.go.id
4,5,Pakistán,256 204 000,317,256,6 567 000,788,27,241 499 431,1/03/2023,C,www.pbs.gov.pk


In [67]:
datos9[datos9['País (o territorio dependiente)']=="Colombia"]

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
26,27,Colombia,53 473 000,66,148,789 000,95,47,52 695 952,2024,E,www.dane.gov.co


#**Creando un banco de Datos Local**

Las **bases de datos** son sistemas que permiten el almacenamiento, organización y recuperación de información de forma estructurada y eficiente. Se utilizan ampliamente en muchas áreas, desde la gestión empresarial hasta la investigación científica. Una base de datos bien diseñada puede mejorar significativamente la eficiencia y precisión de las operaciones de una organización.
Existen bases de datos relacionales y no relacionales. Las bases de datos relacionales representan y almacenan datos en tablas. Las bases de datos no relacionales, también conocidas como bases de datos NoSQL (Not Only SQL - No Sólo SQL), utilizan una variedad de estructuras de datos, como documentos, gráfos o pares llave-valor.

Python ofrece varios paquetes y bibliotecas para trabajar con bases de datos, incluyendo SQLite, MySQL, PostgreSQL, Oracle, MongoDB, entre otros. Uno de los paquetes más comunes utilizados para trabajar con bases de datos relacionales en Python es el paquete sqlite3 que ofrece soporte a bases de datos SQLite. Esta base de datos es liviana e integrada, no requiere un servidor separado para ejecutarse y está instalada de forma nativa en Google Colab.

In [70]:
import sqlalchemy

Para trabajar con esta base de datos, podemos usar **SQLAlchemy**, una biblioteca de mapeo objeto-relacional (ORM), que permite interactuar con bases de datos relacionales usando código Python. Proporciona una capa de abstracción que permite a los desarrolladores trabajar con objetos Python en lugar de lidiar directamente con las complejidades del lenguaje SQL (Structured Query Language - Lenguaje de consulta estructurado).

In [71]:
from sqlalchemy import create_engine, MetaData, Table, inspect, text

Uno de los principales beneficios de utilizar **SQLAchemy** es la capacidad de crear código más legible y fácil de mantener. Con **SQLAlchemy**, las operaciones de la base de datos se realizan utilizando métodos en objetos Python, lo que hace que el código sea más claro y menos propenso a errores.

In [73]:
engine = create_engine('sqlite:///:memory:')

In [74]:
import pandas as pd

archivo = '/content/drive/MyDrive/raw data/clientes_banco.csv'
datos_banco = pd.read_csv(archivo)
datos_banco.tail(5)

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
438458,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438459,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438460,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438461,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio
438462,6842885,51,Nivel intermedio,Casado,2,Empleado,Ventas,3,121500.0,0,Casa/Departamento propio


In [75]:
datos_banco.shape
datos_banco.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 438463 entries, 0 to 438462
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   ID_Cliente          438463 non-null  int64  
 1   Edad                438463 non-null  int64  
 2   Grado_estudio       438463 non-null  object 
 3   Estado_civil        438463 non-null  object 
 4   Tamaño_familia      438463 non-null  int64  
 5   Categoria_de_renta  438463 non-null  object 
 6   Ocupacion           438463 non-null  object 
 7   Años_empleado       438463 non-null  int64  
 8   Rendimiento_anual   438463 non-null  float64
 9   Tiene_carro         438463 non-null  int64  
 10  Vivienda            438463 non-null  object 
dtypes: float64(1), int64(5), object(5)
memory usage: 36.8+ MB


In [78]:
datos_banco.isna().sum()

Unnamed: 0,0
ID_Cliente,0
Edad,0
Grado_estudio,0
Estado_civil,0
Tamaño_familia,0
Categoria_de_renta,0
Ocupacion,0
Años_empleado,0
Rendimiento_anual,0
Tiene_carro,0


## **Exportando archivo a SQL**

In [79]:
datos_banco.to_sql('clientes',engine,index=False)

438463

In [83]:
inspector = inspect(engine)
print(inspector.get_table_names())

['clientes']


###**Generando querys**

**SQL** (Structured Query Language - Lenguaje de consulta estructurado) es un lenguaje de consulta utilizado en bases de datos relacionales para insertar, actualizar, consultar y administrar datos.

Para hacer todo esto, existen cláusulas SQL, que son componentes fundamentales de las sentencias SQL, permitiendo especificar detalles sobre cómo se va a realizar la consulta u operación de la base de datos. Las cláusulas se utilizan para filtrar, ordenar, agrupar y limitar los resultados de la consulta.

Las sentencias SQL pueden estar compuestas por una o más cláusulas que proporcionan información adicional sobre lo que se supone que debe hacer la consulta. Las cláusulas más comunes son:

SELECT: especifica qué columnas deben seleccionarse en la consulta.

FROM: Especifica las tablas de la base de datos que se consultarán.

WHERE: Filtra los resultados de la consulta según una o más condiciones especificadas.

ORDER BY: Ordena los resultados de la consulta en orden ascendente o descendente según una o más columnas.

GROUP BY: agrupa los resultados de la consulta basados en una o más columnas.

LIMIT: limita el número de filas devueltas por los resultados de la consulta.

SELECT nombre, apellido, salario

FROM empleados

WHERE departamento = 'ventas'


In [89]:
query = 'SELECT * FROM clientes WHERE Categoria_de_renta = "Empleado"'

####**Leyendo consulta query**

In [90]:
empleados = pd.read_sql(sql=text(query),con = engine.connect())

In [93]:
empleados.sample(5)

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
148768,6140971,24,Nivel intermedio,Soltero,1,Empleado,Ventas,3,180000.0,0,Casa/Departamento propio
124530,6143577,26,Nivel intermedio,Soltero,1,Empleado,Otro,2,157500.0,1,Casa/Departamento propio
145205,6124274,42,Nivel intermedio,Casado,2,Empleado,Construcción Civil,4,225000.0,1,Casa/Departamento propio
21988,5125350,35,Nivel intermedio,Soltero,1,Empleado,Alta tecnologia,1,180000.0,0,Casa/Departamento propio
151547,6161680,33,Nivel intermedio,Relación-estable,3,Empleado,Construcción Civil,6,202500.0,0,Casa/Departamento propio


In [94]:
empleados.to_sql('empleados',engine,index=False)

226059

leyendo la tabla empleados

In [97]:
pd.read_sql_table('empleados', con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008815,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
4,5112956,46,Nivel superior,Casado,2,Empleado,Contabilidad,2,270000.0,1,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226055,6837906,43,Nivel intermedio,Casado,3,Empleado,Otro,7,355050.0,1,Casa/Departamento propio
226056,6839936,34,Nivel intermedio,Casado,3,Empleado,Construcción Civil,5,135000.0,1,Casa/Departamento propio
226057,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio


In [98]:
pd.read_sql_table('empleados', con = engine.connect(),columns = ['ID_Cliente','Grado_estudio','Rendimiento_anual'])

Unnamed: 0,ID_Cliente,Grado_estudio,Rendimiento_anual
0,5008804,Nivel superior,427500.0
1,5008805,Nivel superior,427500.0
2,5008806,Nivel intermedio,112500.0
3,5008815,Nivel superior,270000.0
4,5112956,Nivel superior,270000.0
...,...,...,...
226054,6837905,Nivel intermedio,355050.0
226055,6837906,Nivel intermedio,355050.0
226056,6839936,Nivel intermedio,135000.0
226057,6840222,Nivel intermedio,103500.0


In [99]:
inspector = inspect(engine)
print(inspector.get_table_names())

['clientes', 'empleados']


##**Actualizando un banco de datos**

In [100]:
query = 'SELECT * FROM clientes'

In [101]:
pd.read_sql(sql=text(query),con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438459,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438460,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438461,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [103]:
#Borrando registros
from sqlalchemy.exc import SQLAlchemyError
query = "DELETE FROM clientes WHERE ID_Cliente = 5008804"
try:
  r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
    print("#Registros borrados: ",r_set.rowcount)

#Registros borrados:  1


In [104]:
pd.read_sql('clientes',con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [105]:
#Actualizando registros
query = "UPDATE clientes SET Grado_estudio = 'Nivel superior'  WHERE ID_Cliente = 5008808"

try:
  r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
    print("#Registros actualizados: ",r_set.rowcount)

#Registros actualizados:  1


In [107]:
pd.read_sql('clientes',con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
2,5008808,52,Nivel superior,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
3,5008809,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [108]:
inspector = inspect(engine)
print(inspector.get_table_names())

['clientes', 'empleados']


##**Ejercició**

In [109]:
Archivo2 = '/content/drive/MyDrive/raw data/clientes_banco2.csv'
datos_banco2 = pd.read_csv(Archivo2)
datos_banco2.tail(5)

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
438458,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,135000.0,0,Casa/Departamento propio
438459,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438460,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438461,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio
438462,6842885,51,Nivel intermedio,Casado,2,Empleado,Ventas,3,121500.0,0,Casa/Departamento propio


In [111]:
datos_banco2.to_sql('Nuevos_clientes',con = engine.connect(),index=False)

438463

In [112]:
query = "UPDATE Nuevos_clientes SET Rendimiento_anual = 300000  WHERE ID_Cliente = 6840104"

In [114]:
from sqlalchemy.exc import SQLAlchemyError
try:
  r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
    print("#Registros actualizados: ",r_set.rowcount)

#Registros actualizados:  1


In [115]:
query = 'SELECT * FROM Nuevos_clientes WHERE ID_Cliente = 6840104'
pd.read_sql(sql=text(query),con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,300000.0,0,Casa/Departamento propio


In [116]:
query = "DELETE FROM Nuevos_clientes WHERE ID_Cliente = 5008809"
try:
  r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
  print("#Registros borrados: ",r_set.rowcount)

#Registros borrados:  1


In [117]:
pd.read_sql('Nuevos_clientes',con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,5008804,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
1,5008805,32,Nivel superior,Relación-estable,2,Empleado,Otro,12,427500.0,1,Departamento alquilado
2,5008806,58,Nivel intermedio,Casado,2,Empleado,Seguridad,3,112500.0,1,Casa/Departamento propio
3,5008808,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
4,5008810,52,Nivel intermedio,Soltero,1,Business Partner,Ventas,8,270000.0,0,Casa/Departamento propio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Nivel intermedio,Divorciado,1,Pensionista,Otro,0,300000.0,0,Casa/Departamento propio
438458,6840222,43,Nivel intermedio,Soltero,1,Empleado,Construcción Civil,8,103500.0,0,Casa/Departamento propio
438459,6841878,22,Nivel superior,Soltero,1,Business Partner,Ventas,1,54000.0,0,Vive con los padres
438460,6842765,59,Nivel intermedio,Casado,2,Pensionista,Otro,0,72000.0,0,Casa/Departamento propio


In [118]:
query = "INSERT INTO Nuevos_clientes (ID_Cliente, Edad, Grado_estudio, Estado_civil, " \
        "Tamaño_familia, Categoria_de_renta, Ocupacion, Años_empleado, " \
        "Rendimiento_anual, Tiene_carro, Vivienda) " \
        "VALUES (6850985, 33, 'Doctorado', 'Soltero', 1, 'Empleado', 'TI', " \
        "2, 290000, 0, 'Casa/Departamento propio')"
try:
  r_set = engine.connect().execute(text(query))
except SQLAlchemyError as e:
  print(e)
else:
  print("#Registros insertados: ",r_set.rowcount)

#Registros insertados:  1


In [119]:
query = 'SELECT * FROM Nuevos_clientes WHERE ID_Cliente = 6850985'
pd.read_sql(sql=text(query),con = engine.connect())

Unnamed: 0,ID_Cliente,Edad,Grado_estudio,Estado_civil,Tamaño_familia,Categoria_de_renta,Ocupacion,Años_empleado,Rendimiento_anual,Tiene_carro,Vivienda
0,6850985,33,Doctorado,Soltero,1,Empleado,TI,2,290000.0,0,Casa/Departamento propio


In [120]:
inspector = inspect(engine)
print(inspector.get_table_names())

['Nuevos_clientes', 'clientes', 'empleados']
