# Prueba t√©cnica Cient√≠fico de datos - Puntored 


## Secci√≥n 1: Preguntas Te√≥ricas

## ***Python***

### 1. Explica la diferencia entre una lista y un conjunto en Python. ¬øEn qu√© situaciones usar√≠as cada uno? 

En python, un conjunto y una lista son tipos de datos que sirven para almacenar m√∫ltiples elementos. Sin embargo, se diferencian en lo siguiente:


### Diferencias principales:

| Caracter√≠stica           | **Lista (`list`)**                                  | **Conjunto (`set`)**                                              |
|--------------------------|----------------------------------------------------|------------------------------------------------------------------|
| **Orden**                | Mantiene el orden de los elementos.                | No garantiza el orden de los elementos.                         |
| **Duplicados**           | Permite elementos duplicados.                      | No permite elementos duplicados.                                |
| **Mutabilidad**          | Es mutable (puede modificarse).                    | Tambi√©n es mutable, pero sus elementos deben ser inmutables. Es decir, los conjuntos en Python no pueden contener listas, diccionarios u otros conjuntos. Pero si acepta tuplas, ya que son inmutables    |
| **Acceso**               | Se puede acceder a los elementos mediante √≠ndices. | No permite acceso mediante √≠ndices.                             |
| **Operaciones matem√°ticas** | No cuenta con operaciones matem√°ticas nativas.         | Soporta operaciones de conjuntos como uni√≥n, intersecci√≥n y diferencia. |


### ¬øC√∫ando usar cada uno?

### Lista (list)

Se usa una lista cuando se tienen las siguientes necesidades:
- Permitir valores duplicados.
- Mantener el orden de los elementos.
- Posibilidad de acceder a los elementos usando √≠ndice.
- Realizar operaciones que requieran recorrer los elementos en un orden espec√≠fico.


### Conjunto (set)

Se usa un conjunto cuando se cumplen las siguientes condiciones:
- Es necesario evitar elementos duplicados.
- El orden de los elementos es irrelevante.
- Se requieren operaciones matem√°ticas de conjuntos como: uni√≥n, intersecci√≥n, diferencia.
- Se requiere una busqueda rapida de los elementos. Los conjuntos son mas rapidos que las listas (se usa la funcion 'in').

### 2. ¬øQu√© hace el m√©todo apply() en un DataFrame de pandas? Da un ejemplo de uso.  

El m√©todo apply() en un DataFrame de pandas se usa para aplicar una funci√≥n personalizada a lo largo de las filas o columnas. 

### Ejemplo:


In [1]:
# Importamos las librerias a utilizar
import pandas as pd
import numpy as np

In [2]:
# Creo un dataset
df = pd.DataFrame({
    "Producto": ["A", "B", "C"],
    "Precio": [100, 200, 350],
    "Cantidad": [3, 10, 2]
})
# Aplico el metodo apply para calcular el monto total
df["Monto_Total"] = df.apply(lambda fila: fila["Precio"] * fila["Cantidad"], axis=1)
df.head()


Unnamed: 0,Producto,Precio,Cantidad,Monto_Total
0,A,100,3,300
1,B,200,10,2000
2,C,350,2,700


### 3. ¬øCu√°l es la diferencia entre deepcopy() y copy() en Python? Explica con un ejemplo.


| Caracter√≠stica         | `copy.copy()` (Copia Superficial) | `copy.deepcopy()` (Copia Profunda) |
|-----------------------|---------------------------------|---------------------------------|
| **Estructura copiada** | Crea una nueva variable, pero los elementos internos siguen referenciados al original. | Crea una copia totalmente nueva, incluyendo los elementos internos. |
| **Objetos mutables**   | Si el objeto contiene listas, diccionarios u otros mutables, los cambios en ellos afectar√°n a ambas copias. | Cualquier cambio en la copia no afecta al original, incluso en estructuras anidadas. |
| **Rendimiento**       | M√°s r√°pido porque solo copia referencias. | M√°s lento ya que copia todos los elementos. |


En resumen, el metodo copy() crea una copia que comparte referencias con el original, mientras que deepcopy() crea una copia completamente independiente.

### Ejemplo: 

In [3]:
# Primero, import la libreria copy
import copy

# Lista original
lista_original = [1, 2, [3, 4]]

# Copia superficial (copy)
lista_copy = copy.copy(lista_original)

# Copia profunda (deep copy)
lista_deep = copy.deepcopy(lista_original)

# Modifico la copia superficial
lista_copy[2].append(5)

# A continuacion, vemos como cambiar√° la lista original y la superficial

print("Lista Original:", lista_original)
print("Copia Superficial (copy):", lista_copy)
print("Copia Profunda (deep copy):", lista_deep)


Lista Original: [1, 2, [3, 4, 5]]
Copia Superficial (copy): [1, 2, [3, 4, 5]]
Copia Profunda (deep copy): [1, 2, [3, 4]]


# ***SQL***

### 4. Dado un esquema de base de datos con una tabla ventas(id, cliente_id, fecha, monto), escribe una consulta SQL para obtener el total de ventas por cliente en el √∫ltimo mes. 

<pre style="color: white; background-color: black; padding: 10px;">
  <span style="color: lightblue;">SELECT</span> cliente_id, 
  <span style="color: orange;">SUM</span>(monto) 
  <span style="color: lightblue;">AS</span> total_ventas
  <span style="color: lightblue;">FROM</span> ventas
  <span style="color: lightblue;">WHERE</span> 
    <span style="color: orange;">YEAR</span>(fecha) = 
    (<span style="color: lightblue;">SELECT</span> 
      <span style="color: orange;">YEAR</span>(<span style="color: orange;">MAX</span>(fecha)) 
    <span style="color: lightblue;">FROM</span> ventas)
  <span style="color: lightblue;">AND</span> 
    <span style="color: orange;">MONTH</span>(fecha) = 
    (<span style="color: lightblue;">SELECT</span> 
      <span style="color: orange;">MONTH</span>(<span style="color: orange;">MAX</span>(fecha)) 
    <span style="color: lightblue;">FROM</span> ventas)
  <span style="color: lightblue;">GROUP BY</span> cliente_id;
</pre>



### 5. Explica la diferencia entre un INNER JOIN y un LEFT JOIN. Da un ejemplo de cada uno. 

| **JOIN**        | **Descripci√≥n** |
|----------------|---------------|
| **INNER JOIN** | Devuelve solo las filas que tienen coincidencias en ambas tablas. |
| **LEFT JOIN**  | Devuelve todas las filas de la tabla izquierda y las coincidencias de la derecha. Si no hay coincidencias, los valores de la tabla derecha aparecen como `NULL`. |





### üîπ **Ejemplo de INNER JOIN**
#### **Tablas de ejemplo**
**clientes**  
| id | nombre  |
|----|---------|
| 1  | Ana     |
| 2  | Juan    |
| 3  | Pedro   |

**pedidos**  
| id | cliente_id | producto  |
|----|------------|-----------|
| 1  | 1          | Laptop    |
| 2  | 2          | Tel√©fono  |

#### **Consulta**
```sql
SELECT clientes.nombre, pedidos.producto
FROM clientes
INNER JOIN pedidos 
ON clientes.id = pedidos.cliente_id;

### **Resultado**
| nombre | producto  |
|--------|-----------|
| Ana    | Laptop   |
| Juan   | Tel√©fono |

---

### üîπ **Ejemplo de LEFT JOIN**
```sql
SELECT clientes.nombre, pedidos.producto
FROM clientes
LEFT JOIN pedidos 
ON clientes.id = pedidos.cliente_id;

### **Resultado**
| nombre | producto  |
|--------|-----------|
| Ana    | Laptop   |
| Juan   | Tel√©fono |
| Pedro  | NULL     |

Nota: **Pedro aparece aunque no tenga pedidos, porque el LEFT JOIN incluye todos los registros de `clientes`.**



### 6. Qu√© es la cl√°usula HAVING en SQL y en qu√© se diferencia de WHERE?

La cl√°usula **HAVING** se usa en SQL para filtrar los resultados de una consulta despu√©s de aplicar funciones de agregaci√≥n como `SUM()`, `COUNT()`, `AVG()`, etc. Se diferencia de `WHERE`, que se usa para filtrar registros antes de la agregaci√≥n.

| Cl√°usula | Descripci√≥n |
|----------|-------------|
| **WHERE** | Filtra filas antes de la agregaci√≥n. Se usa con columnas individuales. |
| **HAVING** | Filtra grupos despu√©s de la agregaci√≥n. Se usa con funciones de agregaci√≥n. |

**Conclusi√≥n:**  

- Se usa **WHERE** cuando se necesita filtrar filas individuales.  
- Se usa **HAVING** cuando se necesita filtrar despu√©s de aplicar `GROUP BY`.  


# ***Machine Learning***

### 7. ¬øCu√°l es la diferencia entre un modelo supervisado y no supervisado? Da un ejemplo de cada uno.

### Diferencia entre un modelo supervisado y no supervisado

| Tipo de Modelo      | Descripci√≥n |
|---------------------|-------------|
| **Supervisado**    | Se entrena con datos etiquetados. Es decir, el modelo aprende a partir de ejemplos donde se conoce la respuesta correcta. |
| **No Supervisado** | Se entrena con datos no etiquetados y encuentra patrones o estructuras ocultas sin informaci√≥n previa sobre las respuestas. |

### Ejemplos:

üîπ **Modelo Supervisado:**  
Un clasificador de correos electr√≥nicos que distingue entre "spam" y "no spam". Se entrena el modelo mostrandole, previamente correos categorizados.  

üîπ **Modelo No Supervisado:**  
Un algoritmo de segmentaci√≥n de clientes que agrupa usuarios en categor√≠as seg√∫n su comportamiento de compra, sin etiquetas previas.  


### 8. Menciona tres m√©tricas de evaluaci√≥n para modelos de clasificaci√≥n y explica cu√°ndo usar cada una

***M√©tricas de Evaluaci√≥n para Modelos de Clasificaci√≥n***  

| **M√©trica**      | **Descripci√≥n** | **Cu√°ndo usarla** |
|-----------------|----------------|-------------------|
| **Accuracy (Exactitud)** | Proporci√≥n de predicciones correctas sobre el total de predicciones. | √ötil cuando las clases est√°n balanceadas y no hay un sesgo en los datos. |
| **Precision (Precisi√≥n)** | Proporci√≥n de verdaderos positivos entre todas las predicciones positivas ***(De todas las instancias que el modelo predijo como positivas, ¬øcu√°ntas realmente eran positivas?)***. | Importante cuando los falsos positivos tienen un alto costo (ej. detecci√≥n de fraude). |
| **Recall (Sensibilidad o Exhaustividad)** | Proporci√≥n de verdaderos positivos sobre el total de casos positivos reales. ***(De todas las instancias que eran realmente positivas, ¬øa cu√°ntas acerto el modelo?)***| Crucial cuando los falsos negativos son costosos (ej. detecci√≥n de enfermedades). |

### Cu√°ndo elegir cada m√©trica:

- Se recomenda usar **accuracy** si las clases est√°n balanceadas y quieres medir el rendimiento general.  
- La metrica **precision** se usa cuando el costo de un falso positivo es alto, por ejemplo, en un sistema de detecci√≥n de spam.  
- Es recomendable usar **recall** si los falsos negativos son m√°s peligrosos, como en el diagn√≥stico de c√°ncer.  

***Nota:***
Cabe mencionar que para un mejor an√°lisis, se recomienda la m√©trica **F1-score** (media arm√≥nica entre precisi√≥n y recall). Esta es √∫til cuando hay un desequilibrio entre clases.  
