# Módulo 1: Introducción y Preparación del Entorno

En este módulo aprenderás:
- El flujo de trabajo en proyectos de análisis de datos
- Cómo organizar un proyecto y crear entornos virtuales
- Cómo cargar y explorar datos con Pandas

La presentación de la primera sesión: [Descargar](https://docs.google.com/presentation/d/1PuFjT6oM-FlzIZpC7pY2WG_GWTV0mowa/edit?slide=id.p1#slide=id.p1)

## 1. Flujo de trabajo en ciencia de datos

Un flujo típico incluye:
1. Definir el problema o pregunta de negocio
2. Recolectar los datos
3. Limpiar y transformar los datos
4. Explorar y visualizar
5. Modelar (opcional)
6. Comunicar resultados

Este curso se enfoca en los pasos 1 a 4.

## 2. Estructura de un proyecto profesional

Una estructura recomendada puede ser:
```
project-name/
├── assest/           # Imagenes, graficos (generalmente no se sube a github)
├── data/             # Datos crudos y procesados
├── notebooks/        # Notebooks del proyecto
├── utils/            # Funciones auxiliares
├── docs/             # Documentación
├── README.md         # Descripción general
├── environment.yml   # Dependencias usando conda
└── requirements.txt  # Dependencias usando pip
```

## 3. Importar librerías y configurar entorno

Importamos las librerías necesarias para trabajar con datos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

## 4. Definiendo la ruta de los datos
Usaremos un dataset de ejemplo en formato CSV (por ejemplo: `salarios.csv`) ubicado en la carpeta `data/raw/`.


### Opcion 1) Definir la ruta de los datos

In [None]:
path_salarios = '../data/raw/salarios.csv'

### Opcion 2) Definir la ruta de los datos usando buenas practicas y la libreria Path

In [None]:
#Importar la carpeta de datos raw desde utils.paths
from utils.paths import DATA_RAW_DIR

#definir un path o ruta con Path
path_salarios = DATA_RAW_DIR / "salarios.csv"
path_salarios = str(path_salarios)

print(f"Ruta del archivo salarios: {path_salarios}")
print(f"existe archivo salarios: {Path(path_salarios).exists()}")

## 5. Cargar un dataset
Usaremos un dataset de ejemplo en formato CSV (por ejemplo: `salarios.csv`) ubicado en la carpeta `data/raw/`.


### Opcion 1) cargando los datos a un dataframe

In [None]:
df = pd.read_csv('../data/raw/salarios.csv')
df.head()

### Opcion 2) cargando los datos a un dataframe con buenas prácticas

In [None]:
df_salarios = pd.read_csv(filepath_or_buffer=path_salarios, sep=',', encoding='utf-8')


In [None]:
df_salarios.head()

In [None]:
df_salarios.tail()

In [None]:
df_salarios.sample()

## 6. Exploración inicial del dataset

Veamos el tipo de datos, columnas, y valores nulos.

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isnull().sum()