<div style="text-align: center;">
    <img src="https://mejores.com/wp-content/uploads/2020/08/Universidad-Tecnica-Federico-Santa-Maria.jpg" title="Title text" width="20%" height="20%" />
</div>



<hr style="height:2px;border:none"/>
<h1 align='center'> Procesamiento y Visualización de Datos-2025 </h1>

<H3 align='center'> Procesamiento y limpieza de datos </H3>
<hr style="height:2px;border:none"/>


**Objetivos de aprendizaje:**
  * Acceder y manipular datos dentro de `DataFrame`
  * Importar datos CSV a un `DataFrame` de *Pandas*

<hr style="height:2px;border:none"/>

# *Dataset*
El principal conjunto de datos utilizado es «Salary Data.csv», que engloba varias características:

- **Edad:** La edad de los empleados.
- **Años de experiencia:** La experiencia laboral total de los empleados.
- **Sexo:** El sexo de los empleados.
- **Cargo:** La designación o función de los empleados.
- **Nivel de estudios:** La titulación educativa más alta de los empleados.
- **Salario:** El salario anual de los empleados (nuestra variable objetivo).

 Cargar un archivo completo en un `DataFrame`. El siguiente ejemplo carga un archivo con datos de viviendas de California. Ejecuta la siguiente celda para cargar los datos y crear definiciones de funciones:

 El dataset utilizado es [Salary Data.csv](https://raw.githubusercontent.com/alavi-sam/salary-prediction/main/Salary%20Data.csv) del repositorio [alavi-sam/salary-prediction](https://github.com/alavi-sam/salary-prediction).

In [None]:
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt
import seaborn  as sns

df = pd.read_csv('Salary Data.csv')
print(df.shape)
df.head()

- `df.info()` : Retorna información (número de filas, número de columnas, índices, tipo de las columnas y memoria usada) sobre el `DataFrame` df.
- `df.shape` : Retorna una tupla con el número de filas y columnas del `DataFrame` df.
- `df.size` : Retorna el número de elementos del `DataFrame`.
- `df.columns` : Retorna una lista con los nombres de las columnas del `DataFrame` df.
- `df.index` : Retorna una lista con los nombres de las filas del `DataFrame` df.
- `df.dtypes` : Retorna una serie con los tipos de datos de las columnas del `DataFrame` df.
- `df.head(n)` : Retorna las `n` primeras filas del `DataFrame` df.
- `df.tail(n)` : Retorna las `n` últimas filas del `DataFrame` df.


In [None]:
df.info()

## Contar los valores únicos en cada columna categórica

In [None]:
for col in ('Gender', 'Education Level', 'Job Title'):
    print(f'en la columna {col} hay {df[col].nunique()} valores únicos.')

# Seleccionar columnas

Se crea un nuevo DataFrame `x` a partir de df, descartando las columnas `"Gender"` y `"Job Title"` (`axis=1` indica que se eliminan columnas, no filas).

In [None]:
x  = df.drop(['Gender', 'Job Title'], axis = 1)
x.head()

## Seleccionar filas y columnas en Pandas mediante posición con `iloc`

El método `iloc` se utiliza en los DataFrames para seleccionar los elementos en base a su ubicación. 

Su sintaxis es:

- `data.iloc[<filas>, <columnas>]`, donde `<filas>` y `<columnas>` son la posición de las filas y columnas que se desean seleccionar en el orden que aparecen en el objeto. Una notación familiar para los usuarios de Matlab.


In [None]:
print(df.iloc[0]) # Primera fila
df.iloc[1] # Segunda fila
dfa = df.iloc[-1] # Última fila
dfa.head()

In [None]:
print(df.head())
df.iloc[0:5] # Primeras cinco filas
df.iloc[:, 0:5] # Primeras cinco columnas
df.iloc[[0,2,1]]  # Primera, tercera y segunda filas
df.iloc[:, [0,2,1]]  # Primera, tercera y segunda columnas

## Seleccionar filas y columnas en Pandas en base a etiquetas con `loc`

El método `loc` se puede usar de dos formas diferentes: 

1. **Seleccionar filas o columnas en base a una etiqueta:** Puedes seleccionar una o varias filas o columnas especificando las etiquetas correspondientes.

2. **Seleccionar filas o columnas en base a una condición:** También puedes seleccionar filas o columnas que cumplan con una condición específica, lo que permite filtrar los datos de manera flexible.


In [None]:
df.head()

Por ejemplo, si se han seleccionado las filas del 1 al 4 y se carga el resultado en un nuevo DataFrame a la hora de acceder a la fila 1 con loc se tendrá la primera del nuevo objeto mientras que iloc devolverá la segunda. Esto es así porque los índices se conservan, pero no las posiciones.

In [None]:
df_sub = df.loc[1:4]
df_sub

En resumen, `loc` usa las etiquetas del índice, mientras que `iloc` usa las posiciones numéricas de las filas o columnas. Esto puede llevar a resultados diferentes si el índice no es el índice numérico predeterminado.


In [None]:
print(df_sub.loc[1])
print('')
print(df_sub.iloc[1])

Seleccionar columnas...

In [None]:
df.loc[:, 'Gender'] # Columna Gender

df.loc[:, ['Gender', 'Salary']] #re Columnas Gender, Salary

## Seleccionar filas o columnas en base a una condición con loc

In [None]:
is_male = df.loc[:, 'Gender'] == 'Male'
df_male = df.loc[is_male]
df_male.head()

# Problemas en los datos

### 1. Información general del DataFrame

In [None]:
print("Información general del DataFrame:")
print(df.info())

### 2. Verificar valores faltantes (NaN)


In [None]:
print("\nValores faltantes (NaN) por columna:")
print(df.isnull().sum())

In [None]:
DFN = df.fillna(0)


print(DFN.isnull().sum())

In [None]:
col = 'Gender'

moda = df[col].mode()[0]

print(moda)
df[col] = df[col].fillna(moda)
print(df.isnull().sum())


<details>
  <summary>Haz clic aquí para ver la solución</summary>

  ```python
col = ['Gender', 'Education Level', 'Job Title']

for c in col:
    moda_c = df[c].mode()[0]          # extrae la moda de la columna c
    df[c].fillna(moda_c, inplace=True)

print(df.isnull().sum())


In [None]:
# TODO: Para las variables categóricas, reemplace los valores faltantes con la moda computada como df[c].mode()[0]
# Escribe tu código aquí:

### 3. Estadísticas descriptivas


In [None]:
print("\nEstadísticas descriptivas:")
print(df.describe())


### 4. Verificar tipos de datos únicos en columnas categóricas


In [None]:
print("\nValores únicos en columnas categóricas:")
for col in ['Gender', 'Education Level']:#, 'Job Title']:
    print(f"\n{col}: {df[col].unique()}")

### 5. Verificar si hay duplicados    

In [None]:
print(f"\nNúmero de filas duplicadas: {df.duplicated().sum()}")

In [None]:
df.duplicated()

In [None]:
dato_370 = df.iloc[369] 
print(dato_370)

In [None]:
df_new = df.drop_duplicates()
df_new

### 6. Dummy variables

Las **dummy variables** (o variables indicadoras) convierten una característica categórica en varias columnas binarias (0/1), una por cada categoría. Esto es necesario porque la mayoría de los algoritmos de machine learning requieren entradas numéricas y no pueden trabajar directamente con etiquetas de texto.

- Representar información categórica (p. ej. género, país, tipo de producto) en forma numérica.  
- Evitar que el algoritmo interprete un orden o magnitud donde no existe (p. ej. “rojo” > “azul”).



In [None]:
df = pd.read_csv('Salary Data.csv')
df_dummies = pd.get_dummies(df, columns= ['Gender', 'Education Level', 'Job Title'], 
                            drop_first=True) 
df_dummies.head()


In [None]:
# Convertir (True→1, False→0)
bool_cols = df_dummies.select_dtypes(include='bool').columns
df_dummies[bool_cols] = df_dummies[bool_cols].astype(int)
df_dummies.head()

# Análisis exploratorio de datos
## 1. Scatter Plot (gráfico de dispersión) para Salary y Age features
Un gráfico de dispersión (scatter plot) muestra puntos de datos en dos dimensiones, donde cada punto representa una observación en el conjunto de datos. En este caso, podemos visualizar cómo se relacionan las características "Salary" (en el eje y) y "Age" (en el eje x).

In [None]:
plt.figure(figsize=(10, 4))
plt.subplot(121)
plt.scatter(df['Age'], df['Salary'], marker = '+', color = 'skyblue')
plt.xlabel('Age')
plt.ylabel('Salary')
plt.title('Scatter plot for Salary and Age')
plt.subplot(122)
plt.scatter(df['Age'], df['Years of Experience'], marker = '+', s = 5, color = 'green')
plt.xlabel('Age')
plt.ylabel('Years of Experience')
plt.title('Scatter plot for Years of Experience and Age')
plt.show()

## Normalización

- Evita que una característica domine por su magnitud.  
- **Convergencia**: Mejora la optimización en redes y regresión por gradiente.  
- Esencial para PCA, LDA y regresión regularizada (relacionados con varianza).  
- Reduce overflow/underflow y errores de precisión.  
- **Interpretación**: Compara fácilmente coeficientes y pesos.

### Consideraciones para usar normalización
- Antes de algoritmos basados en distancia o gradiente.  
- Antes de PCA, LDA o regularización.  
- No necesario en árboles de decisión (Random Forest, XGBoost).  


In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, MaxAbsScaler

# Normalización Max

In [None]:
df = pd.read_csv('Salary Data.csv')
print(df.shape)

max_scaler = MaxAbsScaler()

df[['Age', 'Salary']] = max_scaler.fit_transform(df[['Age', 'Salary']])

print("\nDataFrame normalizado Max:")
print(f"Max 'Age' normalizado: {df['Age'].max()}")
print(f"Max 'Age' original: {pd.read_csv('Salary Data.csv')['Age'].max()}")
df.head()

# Normalización Min-Max

1. Alternativa

In [None]:
df = pd.read_csv('Salary Data.csv')
print(df.shape)

max_scaler = MinMaxScaler()

df[['Age', 'Salary']] = max_scaler.fit_transform(df[['Age', 'Salary']])

print("\nDataFrame normalizado Max:")
print(f"Max 'Age' normalizado: {df['Age'].max()}")
print(f"Max 'Age' original: {pd.read_csv('Salary Data.csv')['Age'].max()}")
df.head()

In [None]:
from sklearn.preprocessing import StandardScaler
import numpy as np


num_cols = df.select_dtypes(include=np.number).columns
scaler =  MinMaxScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])
print("\nDataFrame normalizado Min-Max:")
print(f"Max 'Age' normalizado: {df['Age'].max()}")
print(f"Max 'Age' original: {pd.read_csv('Salary Data.csv')['Age'].max()}")
df.head()

# Normalización Z-score

## Ejercicio: 

1. Importe el archivo `Salary Data.csv` a un DataFrame de pandas.
2. Filtre el DataFrame para mantener solo las columnas de tipo numérico.
3. Aplique la transformación Z-score.
4. Para el DataFrame estandarizado, calcule y muestre la **media** (`mean()`) y **desviación estándar** (`std()`) de cada característica.