# SQL y Adquisición de datos
## 1. Adquisición de datos
Se refiere al proceso de **recolección**, **filtrado** y **limpieza** de datos antes de colocarlos en un almacén de datos o cualquier otra solución de almacenamiento.

## 2. Comprensión del problema de negocio y Definición de la Necesidad de Datos
Antes de comenzar con la adquisición de datos, es esencial comprender el problema de negocio o investigación que se desea resolver.

Definir la pregunta problema es el primer paso: ¿qué se quiere analizar o predecir? ¿qué tipo de datos son necesarios para ello? ¿dónde se pueden encontrar esos datos? Es fundamental identificar la relevancia de los datos con respecto al objetivo planteado.

## 3.1 Datos Estructurados
Los datos estructurados tienen un formato bien definido, generalmente organizado en **tablas** con **filas** y **columnas**.
Ejemplos comunes incluyen bases de datos relacionales y archivos CSV. Sumaturaleza bien organizada facilita el almacenamiento, búsqueda y análisis a través de consulta SQL y otras herramientas similares.

## 3.2 Datos Semi-estructurados
Estos datos no siguen un esquema rígido, pero sí presentan cierta organización,como archivos JSON o XML. Este tipo de datos es más flexible que los estructurados y pueden adaptarse a diferentes necesidades de almacenamiento y análisis, aunque su procesamiento puede requerir técnicas más avanzadas.

## 3.3 Datos No Estructurados
Los datos no estructurados carecen de un formato predefinido y son más difíciles de procesar. Ejemplos de estos datos incluyen textos, imágenes y videos. Debido a su complejidad y diversidad, el análisis de datos no estructurados suele requerir técnicas de procesamientos avanzado, como el procesamiento de lenguaje natural (NLP) o la visión por computadora.


## Herramientas y técnicas para la lectura de datos con Pandas

Pandas es una biblioteca de Python ampliamente utilizada para la manipulación y análisi de datos.

In [None]:
# Alguas de las técnicas más comunes para leer datos desde diferentes fuentes:

## 1. Lectura de datos desde un archivo de texto plano (CSV, TSV, etc.)
import pandas as pd
pd.read_csv('ruta_o_url_del_archivo.csv')

## 2. Lectura de datos desde un archivo de Excel
pd.read_excel('ruta_o_url_del_archivo.xlsx', 
sheet_name = 'nombre_de_la_hoja')

## 3. Lectura de datos desde una base de datos SQL
import sqlite3
conn = sqlite3.connect('ruta_o_url_de_la_base_de_datos.db')
df = pd.read_sql_query('SELECT * FROM nombre_de_la_tabla', conn)

## 4. Lectura de datos desde una API
import requests
response = requests.get('url_de_la_api')
data = response.json()
df = pd.DataFrame(data)


Estas técnicas permites a los cientificos de datos acceder a múltiples fuentes de información y estructurar los datos para su análisis. La capacidad de leer y manipular datos de diferentes formatos es crucial para trabajar de manera efectiva en proyectos de ciencia de datos.

## Repositorios y fuentes de datos

Existen múltiples fuentes de datos disponibles, tanto gratuitas como de pago, que pueden ser utilizadas para distintos propósitos analíticos y de medelado. A continuación, se presentan algunos ejemplos de repositorios gratuitos y una descripción detallada del proceso de adquisición de datos desde APIs públicas y privadas.

### Ejemplos de repositorios gratuitos de datos.

1. **Kaggle Kaggle** es una de las plataformas más populares para los cientificos de datos, que ofrece miles de conjuntos de datos gratuitos en diversas áreas como finanzas, salud, tecnología, entre otros. Los usuarios pueden descargar los datos directamente o conectarse a Kaggle mediante su API.

2. **Google Dataset Search** es un motor de búsqueda que ayuda a encontrar conjuntos de datos enla web. Google Dataset Search incluye datos de numerosas fuentes, desde datos académicos hasta repositorios gubernamentales.

3. **UCI Machine Learning Repository** es un repositorio que ofrece una gran variedad de conjuntos de datos, especialmente útiles para proyectos académicos y de investigación. Es ampliamentes utilizado para proyectos de aprendizaje automático y análisis de datos.

4. **Data.gov** es el repositorio abierto de datos del gobierno de los estados unidos, que contiene conjuntos de datos de diferentes agencias gubernamentales. Es una excelente fuente de datos relacionados con temas como salud, energía, educación y clima.

5. **World Bank Open Data** del Banco Mundial proporciona acceso gratuito a sus datos sobre desarrollo mundial. Los datos abarcan temas como economía, salud, educación y más, permitiendo el acceso a información detallada a nivel global. 

6. **AWS Public Datasets** de Amazon Web Services ofrece una colección de conjuntos de datos de uso público, alojados en la nube para facilitar su acceso y procesamiento. Incluye datos sobre genómica, imágenes satelitales y mucho más.


### Descripción del proceso de adquisición de datos desde APIs públicas y privadas.
Las APIs (Interfaces de Programación de Aplicaciones) son herramientas poderosas para la adquisición de datos, permitioendo a los desarrolladores y cientificos de datos acceder a datos en tiempo real desde diversas fuentes. Las APIs pueden públicas, accesibles sin autentificación, o privadas, que requieren una clave de API o credenciales específicas.

### Pasos para adquirir datos desde APIs públicas

1. **Identificar la API de ínteres:** el primer paso es identificar una API que proporcione los datos que se necesitan. Ejemplo de APIs públicas incluyen la API de OpenWeather para datos meteorológicos y la API de CoinGecko para datos de criptomonedas. 

2. **Consultar la Documentación de la API:** La documentación es esencial para entender cómo funciona la API, los endpoints disponibles, los parámetros que puedes pasar y el formatos en el que se devuelven los datos (generalmente JSON o XML)

3. **Enviar una Solicitud (Request)** a la API: se utilizan bibliotecas como ```requests```en Python para enviar una solicitud a la API. Por ejemplo, para consultar la API de OpenWeather, puedes hacer los siguiente:

In [None]:
import requests

# URL de la API y parametros
url = "http://api.openweathermap.org/data/2.5/weather"
params = {
    "q": "London,uk", #ciudad de interés
    "appid":, #'tu clave de API'
    "units": "metric" #unidades de temperatura
}

# envío de la solicitud
response = requests.get(url, params=params)
data = response.json()
data

4. **Manejo de Errores y validación de respuestas:** verificar siempre el código de estado de la respuesta (e.g., 200 para éxito, 404 para no encontrado). Maneja posibles errores para asegurar que el script se ejecute sin interrupciones.

5. **Procesamiento de los Datos:** los datos obtenidos se sueles transformar en un DataFrame de Pandas para su manipulación y análisis. Esto facilitas la limpieza, transformación y visualización de los datos adquiridos.

### Adquisición de datos desde APIs privadas

1. **Registrarse y obtener una clave API:** para acceder a APIs privadas, primero debes registrarte en la plataforma que ofrece la API y obtener una clave de acceso, conocida como API Key. Esta clave debe incluirse en cada solicitud para autenticar tu acceso.

2. **Configurar la Solicitud de API con credenciales:** incluye tu API Key en los encabezados o parámetros de la solicitud. Aquí hay un ejemplo básico para una API privada:


In [None]:
import requests

# URL de la API y parametros
url = "https://api.ejemplo.com/data"
headers = { 'Authorization': 'Bearer tu_clave_api' # Encabezado de autenticación }
           
# envío de la solicitud
response = requests.get(url, headers=headers)
data = response.json()
data

# Introducción a SQL
SQL (Structured Query Language) es un lenguaje utilizado para gestionar y manipular bases de datos relacionales. A diferencia de los lenguajes de programación tradicionales, SQL es un leguaje declarativo, lo que significa que se enfoca en 'qué' se quiere hacer con los datos y no en 'cómo' hacerlo. SQL es ampliamente utilizado en la ciencia de datos, el desarrollo web y la administración de bases de datos, debido a su capacidad para interactuar de manera eficiente con grandes volúmenes de datos.

## ¿qué es SQL?
SQL permite a los usuarios realizar una variedad de operaciones sobre bases de datos, tales como la creación de tablas, inserción de registros, actualización de datos, y la realización de consultas complejas. Se compone de varios sublenguajes que permiten definir, manipular y controlar datos dentro de una base de datos.

## Principales sublenguajes de SQL

# 1. DDL (Data Definition Language)
Permite definir y modificar la estructura de la base de datos y sus objetos, como tablas, índices y vistas. Los comandos DDL son esenciales para establecer la arquitectura de la base de datos. Ejmplos de comando incluyen **CREATE**. que crea nuevos objetos, **ALTER**, que modifica la estructura existente, **DROP**, que elimina objetos, y **TRUNCATE**, que borra rápidamente todos los registros de una tabla.

# 2. DML (Data Manipulation Language)
Permite manipular los datos almacenados en las tablas de una base de datos. Los comando DML son fundamentales para trabajar con los datos dentro de la base de datos. Ejemplos de comandos son **SELECT**, que permite consultar datos, **INSERT**, que añade nuevos registros, **UPDATE**, que modifica registros existentes, y **DELETE**, que elimina registros específicos de una tabla.

# 3. DQL (Data Query Language)
Utilizado principalmente para realizar consultas y recuperar datos de las base de datos. El comando principal de DQL es **SELECT**, que permite extraer información de una o varias tablas de manera eficiente. A pesar de su simplicidad, DQL es una herramienta poderosa para explorar y analizar los datos disponibles en la base de datos.

# 4. TCL (Transaction Control Lenguage)
Maneja las transacciones dentro de una base de datos, asegurando que las operaciones se realicen correctamente y de forma segura. Los comando TCL, como **COMMIT**, **ROLLBACK** y **SAVEPOINT**, son cruciales para garantizar la integridad de los datos durante la ejecución de múltiples operaciones, permitiendo revertir o confirmar cambios según sea necesario.

# 5. DCL (Data Control Language)
Gestiona los permisos y derechos de acceso a los objetos dentro de la base de datos. Los comandos DCL, como **GRANT** y **REVOKE**, permiten a los administradores controlar quién puede ver o modificar los datos, asegurando que solo los usuarios autorizados tengan acceso a la información sensible o crítica dentro de la base de datos.


## Operaciones básicas con SQL

# 1. CREATE
El comando **CREATE** se utilizada para crear nuevos objetos en la base de datos, como tablas o bases de datos completas. Definir correctamente una tabla con **CREATE TABLE** es fundamental para asegurar que los datos se almacenen de manera organizada y eficiente.

# 2. INSERT
El comando se **INSERT** se utiliza para añadir nuevos registros en una tabla existente. Este comando es esencial para alimentar la base de datos con datos nuevos, asegurando que se mantengan actualizados y completos. 

# 3. SELECT
El comando **SELECT** es uno de los más utilizados en SQL, permitiendo consultar y recuperar datos de una o más tablas. Es una herramienta poderosa para analizar y obtener la información necesaria de grandes conjuntos de datos.

# 4. UPDATE
El comando **UPDATE** permite modificar registros existentes en una tabla, actualizando la información en función de condiciones específicas. Es vital para mantener los datos actuales y relevantes dentro de la base de datos.

# 5. DELETE
El comando DELETE se utiliza para eliminar registros de una tabla, ya sea de manera individual o en masa, según las condiciones especificadas. Es útil para mantener la base de datos limpia y libre de datos obsoletos o irrelevantes.



## Sentencias Básicas de SQL

# 1. SELECT: consultar datos
La sentencia SELECT se utiliza para consultar datos de una o más tablas en la base de datos. Es la instrucción más común en SQL y permite seleccionar columnas específicas, aplicar filtros, ordenar y agrupar datos.

**Sintaxis básica:**
SELECT columna_1, columna_2, ...
FROM nombre_tabla
WHERE condicion;

**Ejemplos:**

* Seleccionar todas las columnas de una tabla:
SELECT * 
FROM customers

* Seleccionar nombres y ciudades de clientes que viven en Nueva York:
SELECT name, city
FROM costumers
WHERE city = 'New York'

* Seleccionar productos cuyo precio esté entre 10 y 50:
SELECT ProductName, Price
FROM Products
WHERE Price BETWEEN 10 AND 50

# 2. INSERT: insertar datos
La sentencia INSERT se utiliza para agregar nuevos registros a una tabla existente. Puedes especificar los valores de las columnas o insertar filas completas.

**Sintáxis básica:**
INSERT INTO nombre_tabla (columna_1, columna_2, ...)
VALUES (valor1, valor2, ...);

**Ejemplos:**

* Insertar un nuevo cliente en la tabla customers:
INSERT INTO customers (customersID, Name, City)
VALUES (2, 'Jane Smith', 'Los Angeles');

* Insertar un producto sin especificar las columnas (asegúrate de segir el orden de la tablas):
INSERT INTO Products 
VALUES (101, 'notebook', 20.99);

# 3. UPDATE: actualizar datos
La sentencia UPDATE se utiliza para modificar los registros existentes en una tabla. Es importante utilizar la clausula WHERE para especificar qué registros deben actualizarse; de lo contrario, todos los registros serán afectados.

**Sintáxis básica:**
UPDATE nombre_tabla
SET columna_1 = valor1, columna_2 = valor2, ...
WHERE condicion;

**Ejemplos:**

* Actualizar la ciudad de un cliente:
UPDATE customers
SET city = 'Los Angeles'
WHERE CustomerID = 2;

* Incrementar el precio de todos los productos en un 10%
UPDATE products
SET price = price * 1.10;

# 4. DELETE: eliminar datos
La sentencia DELETE se utiliza par eliminar registros de una tabla. Similar a UPDATE, es fundamental utilizar la cláusula WHERE para evitar eliminar todos los registros de la tabla.

**Sintáxis básica:**
DELETE FROM nombre_tabla
WHERE condicion;

**Ejemplos:**

* Eliminar un cliente específico:
DELETE FROM customers
WHERE CustomerID = 2;

* elminar productos cuyo precio sea menor a 5:
DELETE FROM Products
WHERE Price < 5;

## Ejercicios prácticos


1. Consulta de Datos
    * Consulta todos los productos que tienen un precio mayor a 20.
SQL
SELECT FROM Products
WHERE Price >20;


2. Inserción de Datos
    * Agrega un nuevo registro en la tabla Employees con los siguientes datos: EmployeeID: 5, Name: 'Carlos', Position: 'Manager'.
SQL
INSERT INTO Employees (EmployeeID, Name, Position)
VALUES (5, 'Carlos', 'Manager');


3. Actualización de Datos
    * Cambia el nombre de un cliente con ID 3 a 'Alice Johnson'.
SQL
UPDATE FROM Customers 
SET Name = 'Alice Johnson'
WHERE ClientID = 3;


4. Eliminación de Datos
    * Elimina todos los registros de la tabla Orders donde la cantidad es menor a 5.
SQL
DELETE FROM Orders
WHERE Cantidad < 5;



5. Consulta con Filtros
    * Encuentra todos los empleados que trabajan en 'Ventas' y ordena los resultados por nombre.
SQL
SELECT Name
FROM Employess
WHERE Position = 'Ventas'
ORDER BY Name;


6. Inserción Masiva
    * Inserta varios productos al mismo tiempo:
SQL
INSERT INTO Products (ProductID, ProductName, Price)
VALUES (102, 'nombreProd1', 8.99), (103, 'nombreProd2', 9.99), ...;

