<a href="https://colab.research.google.com/github/Marissu/Python-Intro-for-Data-Science/blob/main/M%C3%B3dulo_2_Adquisici%C3%B3n_(1)_Archivos_y_BBDDs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módulo 2. Adquisición de datos - Archivos y BBDDs

******

******

## 1. Lectura de archivos (en un mundo ideal)

Pandas ofrece gran cantidad de opciones cuando se trata de leer y exportar datos.

In [1]:
import pandas as pd

Vamos a examinar un conjunto de datos que contiene información sobre los crimenes en USA desde 2020 hasta la actualidad. Podeís encontrar el dataset [aquí](https://drive.google.com/file/d/1rF77Fq3jEcvqh_xX4V3z4t3ZeK0TDmRR/view?usp=sharing)

In [12]:
csv_data = pd.read_csv('Crime_USA.csv')
csv_data.head(2)

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
0,10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,...,AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
1,190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,...,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545


Echemos un vistazo a nuestro DataFrame:

In [13]:
csv_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690454 entries, 0 to 690453
Data columns (total 28 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   DR_NO           690454 non-null  int64  
 1   Date Rptd       690454 non-null  object 
 2   DATE OCC        690454 non-null  object 
 3   TIME OCC        690454 non-null  int64  
 4   AREA            690454 non-null  int64  
 5   AREA NAME       690454 non-null  object 
 6   Rpt Dist No     690454 non-null  int64  
 7   Part 1-2        690454 non-null  int64  
 8   Crm Cd          690454 non-null  int64  
 9   Crm Cd Desc     690454 non-null  object 
 10  Mocodes         595482 non-null  object 
 11  Vict Age        690454 non-null  int64  
 12  Vict Sex        599971 non-null  object 
 13  Vict Descent    599965 non-null  object 
 14  Premis Cd       690446 non-null  float64
 15  Premis Desc     690092 non-null  object 
 16  Weapon Used Cd  239966 non-null  float64
 17  Weapon Des

Fijaros que estoy usando un archivo csv. Sin embargo, si el mismo archivo estuviera en otros formatos también sería muy fácil leer estos:

- Archivo MS Excel: `excel_data = pd.read_excel('Crime_USA.xlsx')` -> En un mundo perfecto...

- Archivo JSON: `json_data = pd.read_json('Crime_USA.json')`

- Archivo Parquet:`parquet_data = pd.read_parquet('Crime_USA.parquet')`

- Archivo Feather:`feather_data = pd.read_feather('Crime_USA.feather')`

De hecho, haciendo una prueba:

Peso:

<img src="https://drive.google.com/uc?id=1q2s4RdUzN77g33coANgycPLjJT3D0lSZ" width="40%">

Segundos en cargar:

- CSV

<img src="https://drive.google.com/uc?id=1KT57fV8AqrJmifeBcxy2x3XJPe30_DGU" width="30%">

- MS Excel

<img src="https://drive.google.com/uc?id=1T6c7zrCXELhXVcgboenHw7DoiI8A8tLO" width="30%">

- JSON

<img src="https://drive.google.com/uc?id=15t80xGFZwsnWzUxtWzqFGVScmVxWspBm" width="30%">

- Parquet

<img src="https://drive.google.com/uc?id=1kUJ4S3eo1dfMlOpDITbGyQ2kKzhLjNej" width="40%">

- Feather

<img src="https://drive.google.com/uc?id=1WLkz3_x7XM8EHo6naCCdjvBHswbJFHUy" width="40%">

Resumiendo...

In [14]:
import plotly.express as px

df = pd.DataFrame(dict(
    archivo = ["CSV", "XLSX", "JSON", "PARQUET", "FEATHER"],
    tiempo_carga_seg = [3.36, 225.6, 21.11, 1.89, 0.99],
    tamano_mb = [176.4, 78.4, 382.4, 29.7, 84.7]))

fig = px.bar(df, x = 'archivo', y = 'tiempo_carga_seg')
fig.update_layout(title_text='Tiempo en cargar', title_x=0.5)
fig.show()

fig = px.bar(df, x = 'archivo', y = 'tamano_mb')
fig.update_layout(title_text='Tamaño', title_x=0.5)
fig.show()

**¿Y que hay de los demás archivos?** Los demás tipos de archivos que hemos visto anteriormente, a exceptción de XML, no están creados para almacenar grandes conjuntos de datos. Por lo que su comparación sería injusta. Como anecdota, convertí el conjunto de datos a un archivo HTML y pesaba más de 500 MB. Por otro lado, no hemos visto XML aún, debido a que es muy parecido a HTML, por lo que lo veremos más adelante.

**¿Y que ocurre con una plantilla MS Excel? ¿Y con los datos de un PDF?** -> Lo veremos en manipulación de datos

******

******

## 2. Lectura de Bases de Datos

Algunas de las librerías más comunes para leer bases de datos en Python incluyen Pandas, SQLAlchemy y PyMySQL. Pandas es una librería popular para la manipulación de datos, y puede leer datos de bases de datos SQL. SQLAlchemy es una librería de mapeo de objetos relacionales (ORM) que permite trabajar con bases de datos SQL de manera más fácil. PyMySQL es una librería específica de Python para trabajar con bases de datos MySQL.

Para leer datos de una base de datos en Python, es necesario conectarse a la base de datos utilizando un controlador de base de datos, que es una librería específica para el tipo de base de datos que se está utilizando. Una vez conectado a la base de datos, se puede usar SQL (Structured Query Language) para enviar consultas a la base de datos y recuperar los datos deseados.

Python tiene librerías que pueden ejecutar consultas SQL en la base de datos y devolver los resultados en un objeto DataFrame de Pandas, lo que facilita el análisis de los datos recuperados. Además, Python tiene librerías que pueden conectarse a bases de datos no SQL, como MongoDB y Cassandra, y realizar operaciones de lectura y escritura en estas bases de datos.

In [15]:
!pip install sqlalchemy
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1


Para que SQLAlchemy se conecte a nuestra base de datos, debemos definir lo siguiente:

- dialect+driver: ¿Nuestra base de datos es MySQL, PostgreSQL, etc? ¿A qué DBAPI debe conectarse nuestro motor?
- username:password: ¿Qué credenciales necesitamos para conectarnos a nuestra base de datos?
- host:port: ¿Dónde está nuestra base de datos?
- database: ¿Cómo se llama nuestra base de datos?

In [16]:
import sqlalchemy as sa

dialect = "mysql"
driver = "pymysql"
username = "usuario1"
password = "C0d35p4ce."
host = "database-1.cjyy8w6ya3fr.eu-north-1.rds.amazonaws.com"
port = "3306"
database = "classicmodels"

connection_string = f"{dialect}+{driver}://{username}:{password}@{host}:{port}/{database}"
engine = sa.create_engine(connection_string)

Fijaros que sencillo es trasladar mis datos a un DataFrame:

In [17]:
text = """
SELECT *
FROM products
"""

conn = engine.connect()
query = sa.text(text)

query_df = pd.read_sql(query, con=conn)
query_df

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,1:10,Min Lin Diecast,"This replica features working kickstand, front...",7933,48.81,95.70
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.30
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,1:10,Highway 66 Mini Classics,"Official Moto Guzzi logos and insignias, saddl...",6625,68.99,118.94
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,1:10,Red Start Diecast,"Model features, official Harley Davidson logos...",5582,91.02,193.66
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,1:10,Motor City Art Classics,Features include: Turnable front wheels; steer...,3252,85.68,136.00
...,...,...,...,...,...,...,...,...,...
105,S700_3505,The Titanic,Ships,1:700,Carousel DieCast Legends,"Completed model measures 19 1/2 inches long, 9...",1956,51.09,100.17
106,S700_3962,The Queen Mary,Ships,1:700,Welly Diecast Productions,Exact replica. Wood and Metal. Many extras inc...,5088,53.63,99.31
107,S700_4002,American Airlines: MD-11S,Planes,1:700,Second Gear Diecast,Polished finish. Exact replia with official lo...,8820,36.27,74.03
108,S72_1253,Boeing X-32A JSF,Planes,1:72,Motor City Art Classics,"10"" Wingspan with retractable landing gears.Co...",4857,32.77,49.66


También podemos utilizar la siguiente sentencia para poder consultar todos los datos de una tabla:

In [18]:
conn = engine.connect()

table_df = pd.read_sql_table("products", con=conn)
table_df

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,1:10,Min Lin Diecast,"This replica features working kickstand, front...",7933,48.81,95.70
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.30
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,1:10,Highway 66 Mini Classics,"Official Moto Guzzi logos and insignias, saddl...",6625,68.99,118.94
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,1:10,Red Start Diecast,"Model features, official Harley Davidson logos...",5582,91.02,193.66
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,1:10,Motor City Art Classics,Features include: Turnable front wheels; steer...,3252,85.68,136.00
...,...,...,...,...,...,...,...,...,...
105,S700_3505,The Titanic,Ships,1:700,Carousel DieCast Legends,"Completed model measures 19 1/2 inches long, 9...",1956,51.09,100.17
106,S700_3962,The Queen Mary,Ships,1:700,Welly Diecast Productions,Exact replica. Wood and Metal. Many extras inc...,5088,53.63,99.31
107,S700_4002,American Airlines: MD-11S,Planes,1:700,Second Gear Diecast,Polished finish. Exact replia with official lo...,8820,36.27,74.03
108,S72_1253,Boeing X-32A JSF,Planes,1:72,Motor City Art Classics,"10"" Wingspan with retractable landing gears.Co...",4857,32.77,49.66


Aunque no es necesario utilizar la librería Pandas:

In [None]:
conn = engine.connect()

result = conn.execute(sa.text("""SELECT * FROM products""")).fetchall()
result

[('S10_1678', '1969 Harley Davidson Ultimate Chopper', 'Motorcycles', '1:10', 'Min Lin Diecast', 'This replica features working kickstand, front suspension, gear-shift lever, footbrake lever, drive chain, wheels and steering. All parts are particularly delicate due to their precise scale and require special care and attention.', 7933, Decimal('48.81'), Decimal('95.70')),
 ('S10_1949', '1952 Alpine Renault 1300', 'Classic Cars', '1:10', 'Classic Metal Creations', 'Turnable front wheels; steering function; detailed interior; detailed engine; opening hood; opening trunk; opening doors; and detailed chassis.', 7305, Decimal('98.58'), Decimal('214.30')),
 ('S10_2016', '1996 Moto Guzzi 1100i', 'Motorcycles', '1:10', 'Highway 66 Mini Classics', 'Official Moto Guzzi logos and insignias, saddle bags located on side of motorcycle, detailed engine, working steering, working suspension, two leathe ... (93 characters truncated) ... paint with chrome accents, superior die-cast detail , rotating whee

También podemos investigar sobre nuestro esquema:

In [None]:
from sqlalchemy import inspect
inspector = inspect(engine)

for table_name in inspector.get_table_names():
    print("\n")
    for column in inspector.get_columns(table_name):
        print(f"Table: {table_name} | Column: {column['name']}")



Table: customers | Column: customerNumber
Table: customers | Column: customerName
Table: customers | Column: contactLastName
Table: customers | Column: contactFirstName
Table: customers | Column: phone
Table: customers | Column: addressLine1
Table: customers | Column: addressLine2
Table: customers | Column: city
Table: customers | Column: state
Table: customers | Column: postalCode
Table: customers | Column: country
Table: customers | Column: salesRepEmployeeNumber
Table: customers | Column: creditLimit


Table: employees | Column: employeeNumber
Table: employees | Column: lastName
Table: employees | Column: firstName
Table: employees | Column: extension
Table: employees | Column: email
Table: employees | Column: officeCode
Table: employees | Column: reportsTo
Table: employees | Column: jobTitle


Table: offices | Column: officeCode
Table: offices | Column: city
Table: offices | Column: phone
Table: offices | Column: addressLine1
Table: offices | Column: addressLine2
Table: offices |

In [None]:
inspector = inspect(engine)
inspector.get_columns('products')

[{'name': 'productCode',
  'type': VARCHAR(length=15),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'productName',
  'type': VARCHAR(length=70),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'productLine',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'productScale',
  'type': VARCHAR(length=10),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'productVendor',
  'type': VARCHAR(length=50),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'productDescription',
  'type': TEXT(),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'quantityInStock',
  'type': SMALLINT(),
  'default': None,
  'comment': None,
  'nullable': False,
  'autoincrement': False},
 {'name': 'buyPrice',
  'type': DECIMAL(precision=10, scale=2),
  'default': None,
  'comment': None,
  'nullable': False},
 {'name': 'MSRP',
  'type': DECIMAL(precision=10, s

### 2.1. Otros aspectos a considerar con SQLAlchemy

Podeís borrar, actualizar o insertar registros/tablas sin ningún problema con SQLAlchemy, sin embargo esta base de datos no tiene los permisos necesarios y este módulo trata solo sobre problemas de adquisición (lectura), no de volcado de datos (escritura).

# Ejercicios

1. En un nuevo notebook, llama a la BBDD que se uso en módulos anteriores llamada `classicmodels`. Tras esto, realiza una consulta SQL para consultar cuanto stock hay según la linea de producto.
2. Realiza lo mismo, pero con las funciones de Pandas, es decir, extrae la tabla completa y realiza la agrupación con las funciones de Pandas.