# üß© Lectura, Escritura y Limpieza de Datos en Pandas

## üéØ **Objetivo**
Aprender a trabajar con fuentes externas de datos y aplicar t√©cnicas b√°sicas de limpieza para preparar la informaci√≥n antes del an√°lisis.

---

## üß† **Conceptos clave**

### üîπ Lectura de archivos
Pandas permite importar datos desde diferentes formatos:

```python
import pandas as pd

df_csv = pd.read_csv('data/ventas.csv')
df_excel = pd.read_excel('data/ventas.xlsx')
df_json = pd.read_json('data/ventas.json')


In [None]:
#Conectar tu Google Drive al cuaderno
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# copiar la ruta de la carpeta donde esta el archivo
%cd "//content/drive/MyDrive/ProgramacioÃÅn 2/borrar 16 limpieza"

In [None]:
# mira lo archivos que estan en la carpeta
!ls

In [None]:
#abrir el archivo a trabajar
import pandas as pd

df = pd.read_excel("Datos_sucios.xlsx")

df.head(10)

In [None]:
#Informaci√≥n de la base de datos
df.info()

In [None]:
# Contar datos faltantes
df.isnull().sum()

In [None]:
#Porcentaje de los datos faltantes
(df.isnull().sum() / len(df)) * 100

In [None]:
#Vizualiacion de datos faltantes
import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(df.isnull(), cbar=False)
plt.title("Mapa de valores faltantes")
plt.show()


## Eliminaci√≥n de datos faltantes

- Eliminar filas cuando los datos faltantes son pocos ($<5\%$ del total).

- Eliminar columnas con muchos datos faltantes ( $> 35 \%$ del total)

In [None]:
# Elimina las filas que tiene datos faltantes en un variable especifica
df = df.dropna(subset=['pais'])

In [None]:
#Vizualiacion de datos faltantes
sns.heatmap(df.isnull(), cbar=False)
plt.title("Mapa de valores faltantes")
plt.show()

## Imputaci√≥n¬† de datos faltantes

- Cuando los datos faltantes son significativos pero no cr√≠ticos.

- Cuando la eliminaci√≥n afectar√≠a el an√°lisis.

## M√©todos de Imputaci√≥n:

* Imputaci√≥n con medidas de tendencia central
    - Media: Para datos num√©ricos sin outliers.
    - Mediana: Mejor si hay outliers.
    - Moda: Para variables categ√≥ricas.

* Imputaci√≥n con modelos predictivos (avanzado)
    - KNN Random
    - Forest
    - Regresiones para predecir valores faltantes.

```python

df['variable'] = df['variable'].fillna(valor)


In [None]:
df['medio_contacto'].mode()[0]

In [None]:
# Imputamos los valores faltantes de medio_contacto con la moda
valor = df['medio_contacto'].mode()[0]
df['medio_contacto'] = df['medio_contacto'].fillna(valor)

In [None]:
# Imputa  lo valores faltantes de la variable precio_usd con la media, es decir con el promedio
valor =  df['precio_usd'].mean()
df['precio_usd'] = df['precio_usd'].fillna(valor)

In [None]:
# muestra la media, mediana, y moda de la variable satisfaccion
media = df['satisfaccion'].mean()
mediana = df['satisfaccion'].median()
moda = df['satisfaccion'].mode()[0] #

print(f"Media de satisfaccion: {media}")
print(f"Mediana de satisfaccion: {mediana}")
print(f"Moda de satisfaccion: {moda}")

In [None]:
# Impute lo valores faltantes de la variable satisfaccion con la mediana
valor = df['satisfaccion'].median()
df['satisfaccion'] = df['satisfaccion'].fillna(valor)


In [None]:
#Vizualiacion de datos faltantes
sns.heatmap(df.isnull(), cbar=False)
plt.title("Mapa de valores faltantes")
plt.show()

In [None]:
# graficar un boxplot de una varaible numerica
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8, 6))
sns.boxplot(x=df['precio_usd'])
plt.title('Boxplot de Precio en USD (Actualizado)')
plt.ylabel('Precio en USD')
plt.show()

Observe que hay 4 datos atipicos:

1) El menor es un valor negativo, fue un error humano, por lo tanto cambie el valor a 1000.

2) los dos mas grandes se deben eliminar

In [None]:
df[df["precio_usd"]<500]

In [None]:
df.loc[df['id_cliente'] == 9947, 'precio_usd'] = 1000

In [None]:
df[df["precio_usd"]>4000]

In [None]:
# soluci√≥n ejercicio
df=df.drop(62)
df=df.drop(78)

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['precio_usd'])
plt.title('Boxplot de Precio en USD (Actualizado)')
plt.ylabel('Precio en USD')
plt.show()

## Inconsistencias en texto

Las bases de datos suelen contener errores humanos o formatos diferentes para una misma categor√≠a.¬†Esto puede hacer que un pa√≠s, ciudad o canal de contacto aparezca varias veces con nombres distintos.

### ¬øQu√© efectos tienen?

- Duplicaci√≥n de categor√≠as en visualizaciones.
- C√°lculos err√≥neos al agrupar.
- Tablas resumen infladas con valores similares.
- P√©rdida de confianza en el informe.

Pasos para solucionar:

- Contar cu√°ntos registros tiene cada categor√≠a de una variable usando `df['variable'].value_counts()`

- Estandariza los valores de la variabl para que cada cat√©goria, haga un diccioanrio llamado `Mapeo` y use el m√©todo df['variable'] = df['variable'].map(Mapeo)

Veamos las variables categoricas pa√≠s

In [None]:
df['pais'].value_counts()

In [None]:
Mapeo = {
    'mexico': 'Mexico',
    'M√©xico': 'Mexico',
    'colombia': 'Colombia',
    'COL': 'Colombia',
    'peru': 'Peru',
    'Per√∫': 'Peru'
}
df['pais'] = df['pais'].map(Mapeo)
df['pais'].value_counts()

#Ejercicio 2

Revisar que las varaibles: `destino`y  `medio_contacto`

In [None]:
df["medio_contacto"].value_counts()

# Datos duplicados

Un dato duplicado es un registro que aparece m√°s de una vez en la base de datos.Puede ser exactamente igual (duplicado exacto) o muy similar (duplicado difuso).

usar : `df[df.duplicated(keep=False)]`

In [None]:
df[df.duplicated(keep=False)]

In [None]:
df=df.drop(101)
df=df.drop(103)
df=df.drop(104)

In [None]:
df[df.duplicated(keep=False)]

## ‚úÖ C√≥mo guardar un DataFrame limpio

* `df.to_csv("Datos_limpios.csv", index=False)`

index=False evita que Pandas escriba la columna del √≠ndice como una columna adicional en el archivo.

Este formato es muy usado, ligero, y compatible con muchos sistemas (Excel, R, Python, SQL, etc.).

*`df.to_excel("Datos_limpios.xlsx", index=False)`

Requiere tener instalada la librer√≠a `openpyxl` o `xlsxwriter`.

Conserva mejor los tipos de datos, permite guardar m√∫ltiples hojas, y es m√°s amigable si el archivo ser√° revisado por personas en Excel.


In [None]:
df.to_excel("Datos_limpios.xlsx", index=False)