# Prueba Técnica para Data Scientist Junior

Bienvenido(a) a la prueba técnica para el puesto de Data Scientist Junior. Esta prueba está diseñada para evaluar tus habilidades en el análisis exploratorio de datos, limpieza y preprocesamiento, modelado predictivo y visualización de resultados, utilizando datos públicos.

---

## 1. Objetivos

- **Análisis Exploratorio de Datos (EDA):** Explorar y comprender el dataset.
- **Limpieza y Preprocesamiento:** Identificar y tratar valores nulos, outliers, y transformar variables cuando sea necesario.
- **Modelado Predictivo:** Desarrollar un modelo predictivo básico (clasificación o regresión según el dataset).
- **Visualización:** Crear gráficos que ayuden a comunicar tus hallazgos.
- **Documentación y Comunicación:** Documentar el proceso y explicar tus decisiones.

---

## 2. Fuentes de Datos Públicos Sugeridas

Puedes elegir **uno** de los siguientes datasets o utilizar otro que cumpla con los objetivos de la prueba:

- **Kaggle Datasets:**  
  - [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic)  
  - [House Prices: Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques)
- **UCI Machine Learning Repository:**  
  - [Wine Quality](https://archive.ics.uci.edu/ml/datasets/wine+quality)
- **data.gov:**  
  - Ejemplos en temas de crimen, salud pública, tráfico, etc.
- **Open Data de la Ciudad de Nueva York:**  
  - [NYC Taxi Trips](https://opendata.cityofnewyork.us/)

---

## 3. Instrucciones

### a) Importación y Exploración de Datos

- **Cargar el dataset:** Lee el dataset seleccionado en Python (por ejemplo, utilizando `pandas`).
- **Exploración inicial:**  
  - Visualiza las primeras filas (`head()`).
  - Describe la estructura del dataset (dimensiones, tipos de variables).
  - Muestra un resumen estadístico de las variables numéricas y categóricas.

*Ejemplo de código:*

In [None]:
import pandas as pd
from IPython.display import Markdown
# Cargar el dataset (modifica la ruta o URL según corresponda)
Train_data = pd.read_csv('train.csv', encoding='utf-8')
Test_data = pd.read_csv('test.csv', encoding='utf-8')


ImportError: cannot import name 'Markdown' from 'IPython' (C:\Users\MNDF_\AppData\Roaming\Python\Python310\site-packages\IPython\__init__.py)

In [10]:
# Mostrar las primeras filas
Markdown("##Visualización de las primeras filas del dataset")
Train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:

# Información general del dataset
Train_data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:

# Resumen estadístico
print(df.describe())

---

### b) Limpieza y Preprocesamiento

- **Datos faltantes:**  
  - Identifica columnas o filas con valores nulos.
  - Aplica estrategias de imputación o eliminación según corresponda.
- **Outliers:**  
  - Detecta valores atípicos y decide si los corriges o eliminas.
- **Transformación de variables:**  
  - Codifica variables categóricas (por ejemplo, con `pd.get_dummies` o `LabelEncoder`).
  - Realiza escalado o normalización si el modelo lo requiere.
- **Ingeniería de características:** (Opcional)  
  - Crea nuevas variables que consideres relevantes para el análisis.

*Ejemplo de código:*

In [None]:
# Identificar valores nulos
print(df.isnull().sum())

# Ejemplo de imputación: rellenar valores nulos con la media en columnas numéricas
df.fillna(df.mean(), inplace=True)

# Codificar variables categóricas (si existen)
df = pd.get_dummies(df, drop_first=True)

# Visualizar nuevamente información del dataset
print(df.info())

---

### c) Análisis Exploratorio (EDA)

- **Visualizaciones:**  
  - Crea gráficos (histogramas, boxplots, scatter plots, etc.) para analizar la distribución de los datos y la relación entre variables.
  - Utiliza librerías como `matplotlib` o `seaborn`.

- **Insights:**  
  - Resume y comenta los hallazgos más relevantes obtenidos del análisis.

*Ejemplo de código:*

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma de una variable numérica (modifica 'nombre_columna')
plt.figure(figsize=(8, 4))
sns.histplot(df['nombre_columna'], kde=True)
plt.title('Distribución de nombre_columna')
plt.show()

# Boxplot para detectar outliers
plt.figure(figsize=(8, 4))
sns.boxplot(x=df['nombre_columna'])
plt.title('Boxplot de nombre_columna')
plt.show()

---

### d) Modelado Predictivo

- **Definir el problema:**  
  - Establece si el problema es de **clasificación** o **regresión**, según el dataset seleccionado.
- **División de datos:**  
  - Separa el dataset en conjuntos de entrenamiento y prueba (por ejemplo, 80/20 o 70/30).
- **Construir un modelo base:**  
  - Utiliza un algoritmo simple (por ejemplo, regresión lineal para regresión, o árbol de decisión para clasificación).
- **Evaluación del modelo:**  
  - Emplea métricas apropiadas:  
    - Para clasificación: `accuracy`, `precision`, `recall`, `F1-score`, etc.  
    - Para regresión: `RMSE`, `MAE`, `R²`, etc.
- **(Opcional) Ajuste y mejora:**  
  - Prueba ajustes de hiperparámetros o utiliza otro algoritmo para mejorar el desempeño.

*Ejemplo de código para un modelo de clasificación:*

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Seleccionar variables (modifica 'target' por el nombre de la variable objetivo)
X = df.drop('target', axis=1)
y = df['target']

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

# Predicciones y evaluación
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

*Ejemplo de código para un modelo de regresión:*

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Seleccionar variables (modifica 'target' por el nombre de la variable objetivo)
X = df.drop('target', axis=1)
y = df['target']

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predicciones y evaluación
y_pred = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE:", rmse)
print("R2:", r2_score(y_test, y_pred))

---

### e) Conclusiones y Documentación

- **Interpretación:**  
  - Resume los resultados obtenidos y explica qué significan en el contexto del problema.
- **Limitaciones:**  
  - Menciona las limitaciones de tu análisis y posibles mejoras.
- **Documentación:**  
  - Asegúrate de que el código esté bien comentado y estructurado.

---

## 4. Entregables

Al finalizar la prueba, por favor entrega:

- **Notebook:**  
  - Un Jupyter Notebook o Google Colab con el desarrollo completo de la prueba.
- **README o Documento Explicativo:**  
  - Un breve resumen que incluya:
    - La elección del dataset.
    - Los pasos que seguiste.
    - Las principales conclusiones y recomendaciones.
- **Código Limpio y Reproducible:**  
  - Asegúrate de que todas las celdas se ejecuten correctamente y que se incluyan las instrucciones necesarias para replicar el análisis (por ejemplo, listado de librerías y versiones).

---

## 5. Criterios de Evaluación

Tu trabajo será evaluado en función de los siguientes aspectos:

- **Claridad y estructura:**  
  - Organización del código y documentación.
- **Análisis Exploratorio:**  
  - Profundidad y calidad de la exploración de datos y visualizaciones.
- **Preprocesamiento:**  
  - Correcta identificación y tratamiento de datos faltantes y outliers.
- **Modelado:**  
  - Selección, implementación y evaluación adecuada del modelo.
- **Comunicación:**  
  - Capacidad para explicar de forma clara los hallazgos y las decisiones tomadas.
- **Uso de Herramientas:**  
  - Manejo de Python y librerías como `pandas`, `numpy`, `matplotlib`, `seaborn`, y `scikit-learn` (u otras que consideres apropiadas).

---

¡Buena suerte y esperamos ver tu análisis y soluciones creativas!
