# SQL y Adquisición de datos
## 1. Adquisición de datos
Se refiere al proceso de **recolección**, **filtrado** y **limpieza** de datos antes de colocarlos en un almacén de datos o cualquier otra solución de almacenamiento.

## 2. Comprensión del problema de negocio y Definición de la Necesidad de Datos
Antes de comenzar con la adquisición de datos, es esencial comprender el problema de negocio o investigación que se desea resolver.

Definir la pregunta problema es el primer paso: ¿qué se quiere analizar o predecir? ¿qué tipo de datos son necesarios para ello? ¿dónde se pueden encontrar esos datos? Es fundamental identificar la relevancia de los datos con respecto al objetivo planteado.

## 3.1 Datos Estructurados
Los datos estructurados tienen un formato bien definido, generalmente organizado en **tablas** con **filas** y **columnas**.
Ejemplos comunes incluyen bases de datos relacionales y archivos CSV. Sumaturaleza bien organizada facilita el almacenamiento, búsqueda y análisis a través de consulta SQL y otras herramientas similares.

## 3.2 Datos Semi-estructurados
Estos datos no siguen un esquema rígido, pero sí presentan cierta organización,como archivos JSON o XML. Este tipo de datos es más flexible que los estructurados y pueden adaptarse a diferentes necesidades de almacenamiento y análisis, aunque su procesamiento puede requerir técnicas más avanzadas.

## 3.3 Datos No Estructurados
Los datos no estructurados carecen de un formato predefinido y son más difíciles de procesar. Ejemplos de estos datos incluyen textos, imágenes y videos. Debido a su complejidad y diversidad, el análisis de datos no estructurados suele requerir técnicas de procesamientos avanzado, como el procesamiento de lenguaje natural (NLP) o la visión por computadora.


## Herramientas y técnicas para la lectura de datos con Pandas

Pandas es una biblioteca de Python ampliamente utilizada para la manipulación y análisi de datos.

In [None]:
# Alguas de las técnicas más comunes para leer datos desde diferentes fuentes:

## 1. Lectura de datos desde un archivo de texto plano (CSV, TSV, etc.)
import pandas as pd
pd.read_csv('ruta_o_url_del_archivo.csv')

## 2. Lectura de datos desde un archivo de Excel
pd.read_excel('ruta_o_url_del_archivo.xlsx', 
sheet_name = 'nombre_de_la_hoja')

## 3. Lectura de datos desde una base de datos SQL
import sqlite3
conn = sqlite3.connect('ruta_o_url_de_la_base_de_datos.db')
df = pd.read_sql_query('SELECT * FROM nombre_de_la_tabla', conn)

## 4. Lectura de datos desde una API
import requests
response = requests.get('url_de_la_api')
data = response.json()
df = pd.DataFrame(data)


Estas técnicas permites a los cientificos de datos acceder a múltiples fuentes de información y estructurar los datos para su análisis. La capacidad de leer y manipular datos de diferentes formatos es crucial para trabajar de manera efectiva en proyectos de ciencia de datos.

## Repositorios y fuentes de datos

Existen múltiples fuentes de datos disponibles, tanto gratuitas como de pago, que pueden ser utilizadas para distintos propósitos analíticos y de medelado. A continuación, se presentan algunos ejemplos de repositorios gratuitos y una descripción detallada del proceso de adquisición de datos desde APIs públicas y privadas.

### Ejemplos de repositorios gratuitos de datos.

1. **Kaggle Kaggle** es una de las plataformas más populares para los cientificos de datos, que ofrece miles de conjuntos de datos gratuitos en diversas áreas como finanzas, salud, tecnología, entre otros. Los usuarios pueden descargar los datos directamente o conectarse a Kaggle mediante su API.

2. **Google Dataset Search** es un motor de búsqueda que ayuda a encontrar conjuntos de datos enla web. Google Dataset Search incluye datos de numerosas fuentes, desde datos académicos hasta repositorios gubernamentales.

3. **UCI Machine Learning Repository** es un repositorio que ofrece una gran variedad de conjuntos de datos, especialmente útiles para proyectos académicos y de investigación. Es ampliamentes utilizado para proyectos de aprendizaje automático y análisis de datos.

4. **Data.gov** es el repositorio abierto de datos del gobierno de los estados unidos, que contiene conjuntos de datos de diferentes agencias gubernamentales. Es una excelente fuente de datos relacionados con temas como salud, energía, educación y clima.

5. **World Bank Open Data** del Banco Mundial proporciona acceso gratuito a sus datos sobre desarrollo mundial. Los datos abarcan temas como economía, salud, educación y más, permitiendo el acceso a información detallada a nivel global. 

6. **AWS Public Datasets** de Amazon Web Services ofrece una colección de conjuntos de datos de uso público, alojados en la nube para facilitar su acceso y procesamiento. Incluye datos sobre genómica, imágenes satelitales y mucho más.


### Descripción del proceso de adquisición de datos desde APIs públicas y privadas.
Las APIs (Interfaces de Programación de Aplicaciones) son herramientas poderosas para la adquisición de datos, permitioendo a los desarrolladores y cientificos de datos acceder a datos en tiempo real desde diversas fuentes. Las APIs pueden públicas, accesibles sin autentificación, o privadas, que requieren una clave de API o credenciales específicas.

### Pasos para adquirir datos desde APIs públicas

1. **Identificar la API de ínteres:** el primer paso es identificar una API que proporcione los datos que se necesitan. Ejemplo de APIs públicas incluyen la API de OpenWeather para datos meteorológicos y la API de CoinGecko para datos de criptomonedas. 

2. **Consultar la Documentación de la API:** La documentación es esencial para entender cómo funciona la API, los endpoints disponibles, los parámetros que puedes pasar y el formatos en el que se devuelven los datos (generalmente JSON o XML)

3. **Enviar una Solicitud (Request)** a la API: se utilizan bibliotecas como ```requests```en Python para enviar una solicitud a la API. Por ejemplo, para consultar la API de OpenWeather, puedes hacer los siguiente:

In [None]:
import requests

# URL de la API y parametros
url = "http://api.openweathermap.org/data/2.5/weather"
params = {
    "q": "London,uk", #ciudad de interés
    "appid":, #'tu clave de API'
    "units": "metric" #unidades de temperatura
}

# envío de la solicitud
response = requests.get(url, params=params)
data = response.json()
data

4. **Manejo de Errores y validación de respuestas:** verificar siempre el código de estado de la respuesta (e.g., 200 para éxito, 404 para no encontrado). Maneja posibles errores para asegurar que el script se ejecute sin interrupciones.

5. **Procesamiento de los Datos:** los datos obtenidos se sueles transformar en un DataFrame de Pandas para su manipulación y análisis. Esto facilitas la limpieza, transformación y visualización de los datos adquiridos.

### Adquisición de datos desde APIs privadas

1. **Registrarse y obtener una clave API:** para acceder a APIs privadas, primero debes registrarte en la plataforma que ofrece la API y obtener una clave de acceso, conocida como API Key. Esta clave debe incluirse en cada solicitud para autenticar tu acceso.

2. **Configurar la Solicitud de API con credenciales:** incluye tu API Key en los encabezados o parámetros de la solicitud. Aquí hay un ejemplo básico para una API privada:


In [None]:
import requests

# URL de la API y parametros
url = "https://api.ejemplo.com/data"
headers = { 'Authorization': 'Bearer tu_clave_api' # Encabezado de autenticación }
           
# envío de la solicitud
response = requests.get(url, headers=headers)
data = response.json()
data

3. **Seguridad y Mantenimiento de Credenciales:** mantén tus claves de API segura. No las compartas ni subas a repositorios públicos. Utiliza archivos de configuración o variables de entorno para manejar las claves de manera segura.

4. **Limitaciones y Manejo de Límites de Uso:** las APIs privadas a menudo tienen limitaciones de uso (rate limits) que restringen la cantidad de solicitudes que se pueden hacer en un período determinado. Asegúrate de gestionar estos límites y respetar los términos de uso para evitar bloqueos.