<a href="https://colab.research.google.com/github/jmvazqueznicolas/sistemas_inteligentes_23-1/blob/master/P1_Sistemas%20Inteligentes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ETL (Extraction, Transformation, Load)
El término ETL se refiere a 'Extract, Transform, Load', que son tres funciones fundamentales en la gestión de bases de datos. Los sistemas ETL se utilizan comúnmente en los procesos de data warehousing, pero en esencia, son cruciales para la gestión de datos en cualquier contexto

## Extracción desde archivos



### CSV (Comma Separated Values)
El formato CSV es un tipo de archivo de texto plano que utiliza valores específicos separados por comas (o cualquier otro delimitador, como un tabulador o punto y coma) para representar los datos en forma tabular. Cada línea del archivo corresponde a una fila en la tabla, y los valores separados por comas en cada línea representan las diferentes columnas. Los archivos CSV son una forma común y simple de almacenar datos tabulares y son compatibles con una amplia variedad de aplicaciones, incluyendo hojas de cálculo y bases de datos.


In [1]:
import pandas as pd

# Suponiendo que descargaste el archivo 'gapminder.csv'
url = "https://raw.githubusercontent.com/zief0002/miniature-garbanzo/main/data/gapminder.csv"
data = pd.read_csv(url)

# Mostrando las primeras filas del dataset
data.head()

Unnamed: 0,country,region,income,income_level,life_exp,co2,co2_change,population
0,Afghanistan,Asia,2.03,Level 1,62.7,0.254,increase,37.2
1,Albania,Europe,13.3,Level 3,78.4,1.59,increase,2.88
2,Algeria,Africa,11.6,Level 3,76.0,3.69,increase,42.2
3,Andorra,Europe,58.3,Level 4,82.1,6.12,decrease,0.077
4,Angola,Africa,6.93,Level 2,64.6,1.12,decrease,30.8


### JSON (JavaScript Object Notation)
JSON es un formato de archivo de texto plano que se utiliza para almacenar y transmitir datos en el formato de objeto de JavaScript. Los datos en formato JSON tienen una estructura de pares clave-valor que es fácil de leer y de escribir. A diferencia de los archivos CSV, los archivos JSON pueden almacenar estructuras de datos más complejas, como listas y objetos anidados. Esto los hace ideales para trabajar con datos que tienen una estructura no tabular o jerárquica.



In [2]:
import requests

In [5]:
# URL del archivo JSON
url = "https://raw.githubusercontent.com/Biuni/PokemonGO-Pokedex/master/pokedex.json"

# Hacemos una solicitud para obtener los datos
data = requests.get(url).json()

# Extraemos la información de los Pokémon del diccionario
pokemon_data = data["pokemon"]

# Convertimos la lista de diccionarios en un DataFrame
pokemon_df = pd.DataFrame(pokemon_data)

# Mostrar las primeras filas del DataFrame
pokemon_df.head(150)

Unnamed: 0,id,num,name,img,type,height,weight,candy,candy_count,egg,spawn_chance,avg_spawns,spawn_time,multipliers,weaknesses,next_evolution,prev_evolution
0,1,001,Bulbasaur,http://www.serebii.net/pokemongo/pokemon/001.png,"[Grass, Poison]",0.71 m,6.9 kg,Bulbasaur Candy,25.0,2 km,0.6900,69.00,20:00,[1.58],"[Fire, Ice, Flying, Psychic]","[{'num': '002', 'name': 'Ivysaur'}, {'num': '0...",
1,2,002,Ivysaur,http://www.serebii.net/pokemongo/pokemon/002.png,"[Grass, Poison]",0.99 m,13.0 kg,Bulbasaur Candy,100.0,Not in Eggs,0.0420,4.20,07:00,"[1.2, 1.6]","[Fire, Ice, Flying, Psychic]","[{'num': '003', 'name': 'Venusaur'}]","[{'num': '001', 'name': 'Bulbasaur'}]"
2,3,003,Venusaur,http://www.serebii.net/pokemongo/pokemon/003.png,"[Grass, Poison]",2.01 m,100.0 kg,Bulbasaur Candy,,Not in Eggs,0.0170,1.70,11:30,,"[Fire, Ice, Flying, Psychic]",,"[{'num': '001', 'name': 'Bulbasaur'}, {'num': ..."
3,4,004,Charmander,http://www.serebii.net/pokemongo/pokemon/004.png,[Fire],0.61 m,8.5 kg,Charmander Candy,25.0,2 km,0.2530,25.30,08:45,[1.65],"[Water, Ground, Rock]","[{'num': '005', 'name': 'Charmeleon'}, {'num':...",
4,5,005,Charmeleon,http://www.serebii.net/pokemongo/pokemon/005.png,[Fire],1.09 m,19.0 kg,Charmander Candy,100.0,Not in Eggs,0.0120,1.20,19:00,[1.79],"[Water, Ground, Rock]","[{'num': '006', 'name': 'Charizard'}]","[{'num': '004', 'name': 'Charmander'}]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,146,146,Moltres,http://www.serebii.net/pokemongo/pokemon/146.png,"[Fire, Flying]",2.01 m,60.0 kg,,,Not in Eggs,0.0000,0.00,,,"[Water, Electric, Rock]",,
146,147,147,Dratini,http://www.serebii.net/pokemongo/pokemon/147.png,[Dragon],1.80 m,3.3 kg,Dratini Candy,25.0,10 km,0.3000,30.00,06:41,"[1.83, 1.84]","[Ice, Dragon, Fairy]","[{'num': '148', 'name': 'Dragonair'}, {'num': ...",
147,148,148,Dragonair,http://www.serebii.net/pokemongo/pokemon/148.png,[Dragon],3.99 m,16.5 kg,Dratini Candy,100.0,Not in Eggs,0.0200,2.00,11:57,[2.05],"[Ice, Dragon, Fairy]","[{'num': '149', 'name': 'Dragonite'}]","[{'num': '147', 'name': 'Dratini'}]"
148,149,149,Dragonite,http://www.serebii.net/pokemongo/pokemon/149.png,"[Dragon, Flying]",2.21 m,210.0 kg,Dratini Candy,,Not in Eggs,0.0011,0.11,23:38,,"[Ice, Rock, Dragon, Fairy]",,"[{'num': '147', 'name': 'Dratini'}, {'num': '1..."


### Excel
Excel es una aplicación de hoja de cálculo desarrollada por Microsoft que utiliza archivos con formatos .xls o .xlsx para almacenar datos tabulares y permitir la manipulación de datos y el cálculo de fórmulas. Los archivos de Excel son un formato común para la entrada de datos, especialmente en entornos empresariales. Python puede leer archivos de Excel utilizando bibliotecas como pandas, pero debido a su naturaleza binaria y su estructura de archivo más compleja, leer y escribir archivos de Excel puede ser un poco más lento que trabajar con archivos CSV o JSON.

In [6]:
# URL del archivo Excel
url = 'https://github.com/PacktPublishing/Tableau-10-Best-Practices/raw/master/Chapter%205/Sample%20-%20Superstore%20Sales%20(Excel).xls'

# Leer los datos del Excel
data = pd.read_excel(url)

# Mostrar las primeras filas del DataFrame
data.head()

Unnamed: 0,Row ID,Order ID,Order Date,Order Priority,Order Quantity,Sales,Discount,Ship Mode,Profit,Unit Price,...,Customer Name,Province,Region,Customer Segment,Product Category,Product Sub-Category,Product Name,Product Container,Product Base Margin,Ship Date
0,1,3,2010-10-13,Low,6,261.54,0.04,Regular Air,-213.25,38.94,...,Muhammed MacIntyre,Nunavut,Nunavut,Small Business,Office Supplies,Storage & Organization,"Eldon Base for stackable storage shelf, platinum",Large Box,0.8,2010-10-20
1,49,293,2012-10-01,High,49,10123.02,0.07,Delivery Truck,457.81,208.16,...,Barry French,Nunavut,Nunavut,Consumer,Office Supplies,Appliances,"1.7 Cubic Foot Compact ""Cube"" Office Refrigera...",Jumbo Drum,0.58,2012-10-02
2,50,293,2012-10-01,High,27,244.57,0.01,Regular Air,46.7075,8.69,...,Barry French,Nunavut,Nunavut,Consumer,Office Supplies,Binders and Binder Accessories,"Cardinal Slant-D® Ring Binder, Heavy Gauge Vinyl",Small Box,0.39,2012-10-03
3,80,483,2011-07-10,High,30,4965.7595,0.08,Regular Air,1198.971,195.99,...,Clay Rozendal,Nunavut,Nunavut,Corporate,Technology,Telephones and Communication,R380,Small Box,0.58,2011-07-12
4,85,515,2010-08-28,Not Specified,19,394.27,0.08,Regular Air,30.94,21.78,...,Carlos Soltero,Nunavut,Nunavut,Consumer,Office Supplies,Appliances,Holmes HEPA Air Purifier,Medium Box,0.5,2010-08-30


## Extracción desde bases de datos

### Sistemas de Gestión de Bases de Datos
Son programas de software que se utilizan para gestionar bases de datos. Son el intermediario entre los usuarios y las bases de datos y gestionan cómo se crean, consultan, actualizan y administran los datos en una base de datos.

In [7]:
# Descargar el archivo de la base de datos
!wget https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite

# Cargar la base de datos en SQLite
import sqlite3
conn = sqlite3.connect('Chinook_Sqlite.sqlite')

# Ejecutar una consulta SQL y cargar los resultados en un DataFrame de Pandas
df = pd.read_sql_query("SELECT * FROM Album", conn)

# Ver las primeras filas del DataFrame
df.head()

--2024-08-13 02:25:27--  https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/lerocha/chinook-database/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite [following]
--2024-08-13 02:25:27--  https://raw.githubusercontent.com/lerocha/chinook-database/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1067008 (1.0M) [application/octet-stream]
Saving to: ‘Chinook_Sqlite.sqlite’


2024-08-13 02:25:28 (5.00 MB/s) - ‘Chinook_Sqlite.sqlite’ sa

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3


## Extracción desde otras fuentes

### APIs

Una API, o Interfaz de Programación de Aplicaciones, es un conjunto de reglas y protocolos que especifica cómo deben interactuar dos aplicaciones de software.

Al trabajar con datos, especialmente en el contexto de la ciencia de datos, a menudo necesitaremos extraer datos de diversas fuentes.

Las APIs son esenciales en este proceso porque permiten a los científicos de datos acceder a datos alojados en aplicaciones externas de manera programática. Por ejemplo, muchos servicios web (como Twitter, Facebook, Google Maps, entre otros) ofrecen APIs que permiten a los usuarios extraer datos para varios propósitos.



In [10]:
# Utilizando la API de datos de Rick y Morty
url = "https://rickandmortyapi.com/api/character"
response = requests.get(url)
data_api = response.json()

# Convertir el resultado en un DataFrame
data_api_df = pd.DataFrame(data_api['results'])
data_api_df.head()

Unnamed: 0,id,name,status,species,type,gender,origin,location,image,episode,url,created
0,1,Rick Sanchez,Alive,Human,,Male,"{'name': 'Earth (C-137)', 'url': 'https://rick...","{'name': 'Citadel of Ricks', 'url': 'https://r...",https://rickandmortyapi.com/api/character/avat...,"[https://rickandmortyapi.com/api/episode/1, ht...",https://rickandmortyapi.com/api/character/1,2017-11-04T18:48:46.250Z
1,2,Morty Smith,Alive,Human,,Male,"{'name': 'unknown', 'url': ''}","{'name': 'Citadel of Ricks', 'url': 'https://r...",https://rickandmortyapi.com/api/character/avat...,"[https://rickandmortyapi.com/api/episode/1, ht...",https://rickandmortyapi.com/api/character/2,2017-11-04T18:50:21.651Z
2,3,Summer Smith,Alive,Human,,Female,"{'name': 'Earth (Replacement Dimension)', 'url...","{'name': 'Earth (Replacement Dimension)', 'url...",https://rickandmortyapi.com/api/character/avat...,"[https://rickandmortyapi.com/api/episode/6, ht...",https://rickandmortyapi.com/api/character/3,2017-11-04T19:09:56.428Z
3,4,Beth Smith,Alive,Human,,Female,"{'name': 'Earth (Replacement Dimension)', 'url...","{'name': 'Earth (Replacement Dimension)', 'url...",https://rickandmortyapi.com/api/character/avat...,"[https://rickandmortyapi.com/api/episode/6, ht...",https://rickandmortyapi.com/api/character/4,2017-11-04T19:22:43.665Z
4,5,Jerry Smith,Alive,Human,,Male,"{'name': 'Earth (Replacement Dimension)', 'url...","{'name': 'Earth (Replacement Dimension)', 'url...",https://rickandmortyapi.com/api/character/avat...,"[https://rickandmortyapi.com/api/episode/6, ht...",https://rickandmortyapi.com/api/character/5,2017-11-04T19:26:56.301Z
