# Clase 4
## APIs y Data Wrangling

### 4.1 Introducción

Una API (Appplication Programming Interface) es una interfaz que permite la comunicación entre dos sistemas distintos, permitiendo agregar diversas funciones a sitios web y aplicaciones. Las APIs definen cómo las aplicaciones se comunican con otros programas y proporcionan una manera de obtener datos de un aplicación sin necesidad de conocer los detalles de la base de datos subyacente.

La importancia de las APIs redica en su capacidad para:
* **Facilitar la integración:** las APIS permiten que los sistemas intercambien información y funciones de manera fluida y automatizada.
* **Mejorar la eficiencia:** los desarrolladores pueden enfocarse en sus funcionalidades principales mientras utilizan APIs para tareas comunes como la autenticación de usuarios o el procesamiento de pagos.
* **Impulsar la onnovación:** con acceso a datos y funciones externas, las APIs permiten a las empresas onnovar rápidamente y ofrecer nuevas funcionalidades a sus usuarios.


### Ejemplos de Uso de APIs en la Industria
Las APIs se utilizan en diversos sectores y aplicaciones, desde integración de datos hasta la automatización de procesos. A continuación algunos ejemplos destacados:
1. **Google Maps API:** utilizada por aplicaciones que requieren servicios de geolocalización, direcciones y mapas interactivos. Permite a los desarrolladores integrar mapas personalizables en sus sitios web o aplicaciones móviles.
2. **Twitter API:** permite a los desarrolladores interactuar con los datos de Twitter, como la publicación de tweets, la recolección de datos de usuarios y la gestión de cuentas. Es ampliamente utilizada en el análisis de redes sociales y para automatizar la publicación de contenido.
3. **YouTube API:** permite obtener datos sobre videos, canales, y listas de reproducción. Las aplicaciones pueden usar esta API para mostrar videos, obtener estadísticas del canal o gestionar la interacción de los usuarios con los videos.
4. **Twilio:** utilizada para enviar y recibir mensajes de texto, realizar llamadas telefónicas y gestionar comunicaciones de voz. Es común en aplicaciones que necesitan servicios de mansajería o verificación de usuarios por SMS.
5. **Stripe API:** popular en el sector de pagos en linea, permite a las aplicaciones gestionar pagos, suscripciones y transferencias de dinero de forma segura.

**En resumen**, las APIs son una herramientas poderosa en la ciencia de datos y el desarrollo de software, proporcionando acceso a datos y funcionalidades que pueden transformar cómo operan las aplicaciones y los sistemas empresariales.

### 4.2 Modelos de Negosio basados en APIs

1. **Suscripción**
En este modelo los desarrolladores o empresas pagan una tarifa recurrente (mensual, anual, etc.) para acceder a la API. Es camún que las APIs ofrezcan distintos niveles de suscripción, cada uno con un conjunto específico de caracteristicas y límites de uso.
Ejemplo: Twilio API

2. **Pago por uso**
En este modelos se cobra a los usuarios de la API solo por el uso que hacen de ella, generalmente medido por la cantidad de solicitudes o transacciones. Es ideal para empresas que necesitan flexibilidad y no desean pagar tarifas fijas sino utilizan la API de manera constante.
Ejemplo: Amazon Web Services.

3. **Tarifas por Transacción**
En este modelo, los usuarios de la API pagan una tarifa por cada transacción completada a través de la API. Es común en sistemas financieros y de pagos, donde se cobra una pequeña comisión por cada aperación realizada.
Ejemplo: PayPal API

4. **Modelo Freemium**
Algunas APIs ofrecen un nivel gratutito con funcionalidades limitadas y opciones premium para quienes deseen acceso a características avanzadas. Este modelo atrae a los usuarios a provar la API sin compromiso financiero inicial y luego los incentiva a pagar por mejoras.
Ejemplo: Google Maps API.


**Ejemplos de modelos de negocio con APIs**

1. **Amazon Web Services**
AWS es un proveedor líder de servicios en la nube que ofrece un modelo de pago por uso en muchas de sus APIs, como almacenamiento S3, bases de datos relacionales y servicios de machine learning. Este enfoque permite a las empresas pagar solo por los recursos que consumen, facilitando la escalabilidad y el control de costos.

2. **Twilio API**
Twilio ofrece APIs para comunicación que incluyen servicios como mensajería de texto, llamadas telefónicas y video. Su modelo de negocios es principalmente de pago por uso, permitiendo a las empresas integrar comunicación sin la necesidad de invertir en infraestructura costosa.

3. **PayPal API**
PayPal facilita pagos seguros en línea y cobra tarifas por transacción. Esto permite a las empresas integrar un sistema de pagos robustos sin la necesidad de gestionar comlejos procesos financieros, pagando una pequeña comisión por cada transacción completada a través de la API.


## 4.3 Introducción a Data Wrangling


Data Wrangling, también conocido como Data Munging, es el proceso de limpieza, transformación y unificación de datos complejos y desordenados para hacerlos utilizables en análisis y modelado. Este proceso incluye convertir y mapear datos en bruto (raw data) a un formato que sea más adecuado para el análisis. El propósito principal del Data Wrangling es preparar los datos de manera que puedan ser eficientemente utilizados por modelos analíticos y algoritmos de machine learning.


**Importancia del Data Wrangling en proyectos de Data Science**

En los proyectos de Data Science, el Data Wrangling es una fase crítica, ya que los datos en su estado original suelen estar incompletos, desorganizados o contaminados con errores. Aproximadamente el 60% del tiempo de un Data Scientist se dedica a esta etapa, subrayando su importancia. Sin un buen proceso de Data Wrangling, cualquier análisis posterior estará basado en datos defectuosos, lo que resultará en conclusiones poco fiables y decisiones erróneas. Por esta razón, asegurar la calidad y consistencia de los datos es esencial para obtener resultados precisos.

### Etapas del Data Wrangling

1. **Descubrimiento**
Esta es la fase inicial donde se exploran los datos para comprender su estructura, tipos y cantidad. Se examinan las fuentes de datos disponibles y se determina qué onformación es relevante para el proyecto. Durante esta etapa también se identifican problemas potenciales como datos faltantes o inconsistencias.
EJEMPLO: si se trabaja con datos de ventas, en esta etapa se examinarían los archivos CSV disponibles para entender qué columnas existen, cómo están estructurados los datos y si hay inconsistencia o duplicados.

2. **Estructuración**
La estructuración implica reorganizar los datos para que sigan un formato estándar. Esto incluye cambiar tipos de datos, reorganizar columnas o fusionar diferentes fuentes de datos en un único conjunto coherente.
EJEMPLO: unificar datos provenientes de diferentes hojas de cálculo que tienen columnas similares pero están desordenadas. Por ejemplo, estandarizar fechar a un mismo formato o convertir valores numéricos almacenados como texto.

3. **Limpieza**
En la etapa de limpieza se eliminan o corrigen datos incorrectos, irrelevantes o redundantes. Esto incluye la eliminación de duplicados, el tratamiento de valores atípicos y las imputación de datos faltantes.
EJEMPLO: si hay filas duplicadas en un data set del clientes, estas se eliminan para evitar contar los datos dos veces. También, se pueden rellenar valores nulos con la mediana de una columna numérica para no afectar los análisis posteriores.

4. **Enriquecimiento**
Esta etapa se enfoca en agragar información que puede complementar los datos existentes. Esto se logra mediante la integración de datos externos o la creación de nuevas variables derivadas.
EJEMPLO: agregar datos demográficos de una fuente externa a un conjunto de datos de ventas para enriquecer el análisis de comportamiento del cliente.

5. **Validación**
La validación asegura que los datos procesados sean precisos, completos y consistentes. Se comprueba que los datos transformados mantengan su integridad y que los procesos de limpieza y transformación no hayan introducido errores.
EJEMPLO: validar que después de limpiar unn conjunto de datos de ventas, el total de ingresos aún coincide con los informes financieros de la empresa.

6. **Publicación**
Esta es la etapa final, donde los datos están listos para ser usados. Se comparten los datos con los equipos de análisis, se almacenan en bases de datos o se utilizan para entrenar modelos de machine learning.
EJEMPLO: guardar el conjunto de datos limpio y estructurado en un repositoprio accesible para los analistas de datos, o directamente en una base de datos SQL para su posterior explotación.


El **Data Wrangling** es una parte esencial de cualquier proyecto de Ciencia de Datos, ya que garantiza que los datos estén en un estado óptimo para ser análizados. Cada etapa del proceso de DW, desde el descubrimiento hasta la publicación, desempeñan un papel crucial en la preparación de datos fiables y utilizables, asegurando así el éxito del análisis y la toma de decisiones basadas en datos.


## Fusionar y Concatenar DataFrames

En ciencia de datos el proceso de Data Wrangling es fundamental para preparar los datos de manera que sean útiles y fiables para el análisis y modelado. Una de las tareas más comunes dentro de este proceso es la integración de múltiples fuentes de datos. Para ello, la fusión y la concatenación de DataFrames se Convierte en una habilidad esencial.

### ¿Por qué es importante aprender a fisioknar y concatenar DataFrames?

A menudo en los proyectos de ciencia de datos se trabaja con información proveniente de diferentes origenes: archivos CSV, bases de datos, APIs, o datos generados internamente. Estos datos rara vez vienen con un formato unificado y necesitan ser combinados antes de que podamos extraer conclusiones o construir modelos predictivos. Las funciones *merge* y *concat* de Pandas permiten a los cientificos de datos realizar estas integraciones de manera eficiente y flexible.

* **merge()** es similar a "join" en SQL y se utiliza para combunar filas de dos o más DataFrames basándose en una o más claves comunes. Es especialmente útil cuando necesitamos cruzar información detallada de diferentes tablas, por ejemplo, uniendo datos de ventas con los detalles de clientes.

* **concat()** permite apilar DataFrames a lo largo de un eje (filas o columnas). Es útil cuando deseamos unir datos que tienen la misma estructura pero están divididos en diferentes tablas, como datos de diferentes años o periodos.