# Módulo 1: Introducción y Preparación del Entorno

En este módulo aprenderás:
- El flujo de trabajo en proyectos de análisis de datos
- Cómo organizar un proyecto y crear entornos virtuales
- Cómo cargar y explorar datos con Pandas

La presentación de la primera sesión: [Descargar](https://docs.google.com/presentation/d/1PuFjT6oM-FlzIZpC7pY2WG_GWTV0mowa/edit?slide=id.p1#slide=id.p1)

## 1. Flujo de trabajo en ciencia de datos

Un flujo típico incluye:
1. Definir el problema o pregunta de negocio
2. Recolectar los datos
3. Limpiar y transformar los datos
4. Explorar y visualizar
5. Modelar (opcional)
6. Comunicar resultados

Este curso se enfoca en los pasos 1 a 4.

## 2. Estructura de un proyecto profesional

Una estructura recomendada puede ser:
```
project-name/
├── assest/           # Imagenes, graficos (generalmente no se sube a github)
├── data/             # Datos crudos y procesados
├── notebooks/        # Notebooks del proyecto
├── utils/            # Funciones auxiliares
├── docs/             # Documentación
├── README.md         # Descripción general
├── environment.yml   # Dependencias usando conda
└── requirements.txt  # Dependencias usando pip
```

## 3. Importar librerías y configurar entorno

Importamos las librerías necesarias para trabajar con datos.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

## 4. Definiendo la ruta de los datos
Usaremos un dataset de ejemplo en formato CSV (por ejemplo: `salarios.csv`) ubicado en la carpeta `data/raw/`.


### Opcion 1) Definir la ruta de los datos

In [10]:
!cd

c:\Users\marie\Documents\Cursos\AnalisisDatosPYPA\pydatapanama-cursos\cursos\analisis_datos\notebooks


In [3]:
path_salarios = '../data/raw/salarios.csv'

In [4]:
# revisar la ruta
path_salarios

'../data/raw/salarios.csv'

### Opcion 2) Definir la ruta de los datos usando buenas practicas y la libreria Path

In [9]:
# revisar la ubicación actual
!cd

c:\Users\marie\Documents\Cursos\AnalisisDatosPYPA\pydatapanama-cursos\cursos\analisis_datos\notebooks


In [None]:
#ruta de la carpeta del proyecto
PROJECT_DIR = Path("c:/Users/marie/Documents/Cursos/AnalisisDatosPYPA/pydatapanama-cursos")

#ruta al archivo salarios.csv
path_salarios = PROJECT_DIR / "cursos" / "analisis_datos" / "data" / "raw" / "salarios.csv"

print(f"Ruta completa: {path_salarios}")
print(f"Existe el archivo: {path_salarios.exists()}")

Ruta completa: c:\Users\marie\Documents\Cursos\AnalisisDatosPYPA\pydatapanama-cursos\cursos\analisis_datos\data\raw\salarios.csv
Existe el archivo: True


## 5. Cargar un dataset
Usaremos un dataset de ejemplo en formato CSV (por ejemplo: `salarios.csv`) ubicado en la carpeta `data/raw/`.


### Opcion 1) cargando los datos a un dataframe

In [23]:
df = pd.read_csv('c:\\Users\\marie\\Documents\\Cursos\\AnalisisDatosPYPA\\pydatapanama-cursos\\cursos\\analisis_datos\\data\\raw\\salarios.csv')
df.head(10)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,$71841,€4981
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,$142115,€1252
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,$92278,€5262
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,$97130,€3671
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,$61413,€10190
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,$84987,€5493
6,Andrea,Vargas,58,Chile,No,Mercado Libre,Data Scientist,9,$96936,€4911
7,Pedro,Herrera,25,México,Sí,Meta,AI Software Engineer,1,$152001,€11801
8,Juan,Torres,48,Uruguay,Sí,Oracle,Python Developer,9,$97369,€1365
9,María,Vargas,50,Colombia,No,Oracle,Machine Learning Engineer,13,$105123,€12154


### Opcion 2) cargando los datos a un dataframe con buenas prácticas

In [24]:
df_salarios = pd.read_csv(filepath_or_buffer=path_salarios, sep=',', encoding='utf-8')


In [25]:
df_salarios.head(7)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,$71841,€4981
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,$142115,€1252
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,$92278,€5262
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,$97130,€3671
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,$61413,€10190
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,$84987,€5493
6,Andrea,Vargas,58,Chile,No,Mercado Libre,Data Scientist,9,$96936,€4911


In [10]:
df_salarios.tail(7)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
318,Lucía,González,56,Uruguay,No,,Data Scientist,7,$96078,€11419
319,Luis,Ramírez,60,Argentina,No,Google,Data Scientist,4,$72011,€6723
320,José,Martínez,35,Chile,Sí,Globant,Data Engineer,3,$97114,€1684
321,Carlos,Flores,55,Uruguay,Sí,Globant,Machine Learning Engineer,1,$104541,€3128
322,Lucía,Torres,36,Costa Rica,No,Oracle,Software Engineer,0,$86042,€8746
323,Lucía,González,56,Uruguay,No,Nubank,Data Scientist,7,$96078,€11419
324,Andrea,Pérez,26,Perú,Sí,Meta,Data Engineer,11,$93115,€3426


In [26]:
df_salarios.sample(5)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
168,José,Morales,33,Chile,Sí,Amazon,Product Owner,13,$81447,€4145
321,Carlos,Flores,55,Uruguay,Sí,Globant,Machine Learning Engineer,1,$104541,€3128
95,Carlos,Gómez,48,Chile,No,Facebook,AI Software Engineer,10,$94791,€4835
180,María,González,51,Uruguay,No,Facebook,Data Engineer,13,$95329,€13899
305,Paula,Díaz,53,Costa Rica,No,,Machine Learning Engineer,10,$,€9874


## 6. Exploración inicial del dataset

Veamos el tipo de datos, columnas, y valores nulos.

In [27]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 325 entries, 0 to 324
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   nombre                   325 non-null    object
 1   apellido                 325 non-null    object
 2   edad                     325 non-null    int64 
 3   pais                     324 non-null    object
 4   educacion_universitaria  325 non-null    object
 5   nombre_de_la_empresa     317 non-null    object
 6   cargo                    325 non-null    object
 7   anos_en_la_empresa       325 non-null    int64 
 8   sueldo_anual             325 non-null    object
 9   bono_anual               325 non-null    object
dtypes: int64(2), object(8)
memory usage: 25.5+ KB


In [28]:
df_salarios.describe()

Unnamed: 0,edad,anos_en_la_empresa
count,325.0,325.0
mean,40.889231,6.353846
std,11.582769,3.997803
min,22.0,0.0
25%,30.0,3.0
50%,41.0,6.0
75%,51.0,10.0
max,60.0,13.0


In [29]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       1
educacion_universitaria    0
nombre_de_la_empresa       8
cargo                      0
anos_en_la_empresa         0
sueldo_anual               0
bono_anual                 0
dtype: int64