# Clase: Introducción al Análisis Exploratorio de Datos (EDA)

---

## 1. Introducción al Análisis Exploratorio de Datos (EDA)

### ¿Qué es el EDA?

El **Análisis Exploratorio de Datos (EDA)**, por sus siglas en inglés *Exploratory Data Analysis*, es una etapa fundamental en el proceso de análisis de datos. Consiste en examinar y visualizar los datos de manera sistemática con el objetivo de **descubrir patrones, identificar tendencias, detectar valores atípicos y extraer información relevante** para comprender mejor el conjunto de datos.

El EDA se realiza generalmente **al principio de un proyecto de análisis de datos**, antes de aplicar técnicas de limpieza más avanzadas. A través del análisis exploratorio, buscamos familiarizarnos con los datos, identificar posibles problemas de calidad, determinar la distribución y variabilidad de las variables, y generar hipótesis que puedan guiar el análisis posterior.

Es **ESENCIAL ENTENDER LOS DATOS** y tratar de OBTENER el mayor número de CONOCIMIENTO a partir de ellos. El EDA no es un conjunto de técnicas o reglas fijas, sino una "filosofía" sobre cómo analizar los datos, dependiendo en gran parte de las preguntas que queramos responder.

### Técnicas Comunes en EDA:

Algunas de las técnicas comunes utilizadas en el EDA incluyen:
*   **Resumen estadístico**: Calcular medidas descriptivas como la media, mediana, desviación estándar, rango y percentiles.
*   **Visualización de datos**: Utilizar gráficos como histogramas, gráficos de dispersión, diagramas de caja y diagramas de barras.
*   **Análisis de correlación**: Examinar la correlación entre variables para identificar relaciones.
*   **Tratamiento de valores atípicos**: Buscar valores extremos que puedan afectar los resultados.
*   **Imputación de datos faltantes**: Estimar o rellenar valores nulos.
*   **Segmentación y agrupación**: Identificar subgrupos o patrones específicos.

### Conceptos Importantes: Tipos de Variables

Para el EDA, es fundamental comprender los **tipos de variables** presentes en un conjunto de datos, ya que afectan el tipo de análisis y las técnicas que se pueden aplicar. En nuestro *dataset* de ejemplo (campañas de *marketing* bancario), tenemos las siguientes clasificaciones:

*   **Variables Numéricas**: Representan valores numéricos y se utilizan para medir magnitudes.
    *   Ejemplo en nuestro *dataset*: `age` (edad del cliente), `duration` (duración de la última interacción), `campaign` (número de contactos), `emp.var.rate` (tasa de variación del empleo), `cons.price.idx` (índice de precios al consumidor), `cons.conf.idx` (índice de confianza del consumidor), `euribor3m` (tasa de interés Euribor a 3 meses), `nr.employed` (número de empleados).
*   **Variables Categóricas**: Representan categorías o etiquetas discretas.
    *   Ejemplos en nuestro *dataset*: `job` (ocupación), `marital` (estado civil), `education` (nivel educativo), `default` (historial de incumplimiento), `housing` (préstamo hipotecario), `loan` (otro tipo de préstamo), `contact` (método de contacto), `y` (cliente ha suscrito el producto).

    Dentro de las variables categóricas, podemos tener:
    *   **Nominales**: Categorías sin un orden inherente (ej. `job`, `marital`).
    *   **Ordinales**: Categorías con un orden o jerarquía (ej. `education`).
    *   **Binarias**: Solo dos categorías posibles (ej. `default` con 'sí'/'no' o '0'/'1').

---

## 2. Entender el *Dataset*

Lo primero que haremos es cargar nuestro *dataset* y familiarizarnos con su estructura.

### Carga del *Dataset* y Visualización Inicial

Cargamos el archivo `bank-additional.csv` en un DataFrame de Pandas. Luego, visualizamos las primeras filas para obtener una vista rápida.



In [None]:
import pandas as pd

In [None]:
# Cargar el dataset.
df = pd.read_csv("data/bank-additional.csv")
df.head(2) # Unnamed:0 ???

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,...,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,...,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,...,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [None]:
# Cargar el dataset. 'index_col = 0' indica que la primera columna debe usarse como índice.
df = pd.read_csv("data/bank-additional.csv", index_col = 0)
df.head(2)
# No podemos ver todas las columnas!!!

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,...,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,...,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,...,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [5]:
# Configuración para mostrar todas las columnas del DataFrame
pd.set_option('display.max_columns', None)

In [6]:
df = pd.read_csv("data/bank-additional.csv", index_col = 0)
df.head() # Mostrar las 5 primeras filas del DataFrame para una primera inspección

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [3]:
df.shape

(43000, 24)

Para ver las últimas filas o una muestra aleatoria, utilizamos `.tail()` y `.sample()`.


In [10]:
# Mostrar las 5 últimas filas del DataFrame
df.tail()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
19154,,admin.,MARRIED,university.degree,0.0,0.0,0.0,cellular,618,2,999,0,NONEXISTENT,1.4,93444,-361,,52281,yes,13-octubre-2015,38.147,-105.582,4eed05de-2a98-4227-b488-32122009b638
26206,34.0,technician,MARRIED,professional.course,0.0,1.0,1.0,cellular,42,7,999,0,NONEXISTENT,-0.1,932,-42,,51958,no,17-marzo-2018,49.235,-112.201,0f0aca88-4088-4fe2-905f-44fb675d9493
15046,,blue-collar,SINGLE,basic.6y,0.0,1.0,0.0,cellular,391,2,999,0,NONEXISTENT,1.4,93918,-427,,52281,no,15-septiembre-2016,40.679,-120.015,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b
15280,,admin.,MARRIED,university.degree,,0.0,0.0,cellular,674,3,999,0,NONEXISTENT,1.4,93918,-427,4958.0,52281,no,23-septiembre-2019,27.772,-117.518,5f432048-d515-4bb5-9c94-62db451f88d4
27570,,unemployed,SINGLE,university.degree,0.0,0.0,1.0,cellular,104,2,999,0,NONEXISTENT,-0.1,932,-42,4021.0,51958,no,6-noviembre-2019,41.146,-105.026,993bbbd6-4dbc-4a40-a408-f91f8462bee6


In [15]:
# Mostrar 3 filas aleatorias del DataFrame
df.sample(3)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
4022,35.0,self-employed,MARRIED,university.degree,0.0,,,telephone,167,4,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,11-septiembre-2015,32.399,-103.8,065b5bcf-4622-43fd-82c9-3c262305d8f5
35142,45.0,self-employed,DIVORCED,university.degree,0.0,0.0,1.0,cellular,133,1,999,0,NONEXISTENT,-1.8,92893,-462,125.0,50991,no,22-noviembre-2015,41.1,-118.39,8df003af-b989-450b-9681-f2282d80ac29
32987,54.0,management,MARRIED,high.school,,0.0,0.0,cellular,194,2,999,1,FAILURE,-1.8,92893,-462,,50991,no,7-mayo-2015,32.672,-73.824,14629b2e-5711-41d7-bb17-dc55085832a8




### Dimensiones del *Dataset* y Nombres de Columnas

Es fundamental conocer la cantidad de filas y columnas (`.shape`), y los nombres de todas las columnas (`.columns`).



In [20]:
df.shape

(43000, 23)

In [21]:
# Obtener el número de filas y columnas del DataFrame (devuelve una tupla: (filas, columnas))
print(f"\nEl número de filas que tenemos es {df.shape[0]}, y el número de columnas es {df.shape[1]}")


El número de filas que tenemos es 43000, y el número de columnas es 23


In [22]:
# Obtener los nombres de todas las columnas
print("\nNombres de todas las columnas:")
df.columns


Nombres de todas las columnas:


Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'duration', 'campaign', 'pdays', 'previous', 'poutcome',
       'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m',
       'nr.employed', 'y', 'date', 'latitude', 'longitude', 'id_'],
      dtype='object')

In [23]:
# Conocer la posición de una columna específica, por ejemplo 'duration'
print(f"\nLa posición de la columna 'duration' es: {df.columns.get_loc('duration')}")


La posición de la columna 'duration' es: 8


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 43000 entries, 0 to 27570
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             37880 non-null  float64
 1   job             42655 non-null  object 
 2   marital         42915 non-null  object 
 3   education       41193 non-null  object 
 4   default         34019 non-null  float64
 5   housing         41974 non-null  float64
 6   loan            41974 non-null  float64
 7   contact         43000 non-null  object 
 8   duration        43000 non-null  int64  
 9   campaign        43000 non-null  int64  
 10  pdays           43000 non-null  int64  
 11  previous        43000 non-null  int64  
 12  poutcome        43000 non-null  object 
 13  emp.var.rate    43000 non-null  float64
 14  cons.price.idx  42529 non-null  object 
 15  cons.conf.idx   43000 non-null  object 
 16  euribor3m       33744 non-null  object 
 17  nr.employed     43000 non-null  obje



---

## 3. Estadísticas Descriptivas

El método `.describe()` es una herramienta esencial para obtener una visión general de las estadísticas descriptivas. Por defecto, solo devuelve estadísticas de las **variables numéricas**. Para las **variables categóricas**, debemos usar el parámetro `include = "object"`.

### Estadísticas para Variables Numéricas



In [25]:
# Utilizar .describe() para obtener las principales estadísticas de las variables numéricas
print("Estadísticas descriptivas para variables numéricas:")
df.describe()

Estadísticas descriptivas para variables numéricas:


Unnamed: 0,age,default,housing,loan,duration,campaign,pdays,previous,emp.var.rate,latitude,longitude
count,37880.0,34019.0,41974.0,41974.0,43000.0,43000.0,43000.0,43000.0,43000.0,43000.0,43000.0
mean,39.977112,8.8e-05,0.535998,0.15562,257.739279,2.567233,962.330953,0.174023,0.077128,36.856697,-95.939067
std,10.437957,0.00939,0.498708,0.362499,258.666033,2.772294,187.260394,0.497366,1.573898,7.225948,16.752282
min,17.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,-3.4,24.396,-124.997
25%,32.0,0.0,0.0,0.0,102.0,1.0,999.0,0.0,-1.8,30.61475,-110.49425
50%,38.0,0.0,1.0,0.0,179.0,2.0,999.0,0.0,1.1,36.761,-95.8995
75%,47.0,0.0,1.0,0.0,319.0,3.0,999.0,0.0,1.4,43.11325,-81.42775
max,98.0,1.0,1.0,1.0,4918.0,56.0,999.0,7.0,1.4,49.384,-66.937


In [26]:
# Podemos transponer los resultados con .T para una mejor lectura
print("\nEstadísticas descriptivas (transpuestas) para variables numéricas:")
df.describe().T


Estadísticas descriptivas (transpuestas) para variables numéricas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,37880.0,39.977112,10.437957,17.0,32.0,38.0,47.0,98.0
default,34019.0,8.8e-05,0.00939,0.0,0.0,0.0,0.0,1.0
housing,41974.0,0.535998,0.498708,0.0,0.0,1.0,1.0,1.0
loan,41974.0,0.15562,0.362499,0.0,0.0,0.0,0.0,1.0
duration,43000.0,257.739279,258.666033,0.0,102.0,179.0,319.0,4918.0
campaign,43000.0,2.567233,2.772294,1.0,1.0,2.0,3.0,56.0
pdays,43000.0,962.330953,187.260394,0.0,999.0,999.0,999.0,999.0
previous,43000.0,0.174023,0.497366,0.0,0.0,0.0,0.0,7.0
emp.var.rate,43000.0,0.077128,1.573898,-3.4,-1.8,1.1,1.4,1.4
latitude,43000.0,36.856697,7.225948,24.396,30.61475,36.761,43.11325,49.384




**Entendiendo los Resultados (Ejemplo para `age`)**:
*   `count`: Número de observaciones no nulas.
*   `mean`: La media.
*   `std`: La desviación estándar (dispersión de los datos).
*   `min`: El valor mínimo.
*   `25%`: El percentil 25 (el 25% de los datos están por debajo de este valor).
*   `50%`: La mediana o percentil 50 (divide el *dataset* en dos mitades iguales).
*   `75%`: El percentil 75 (el 75% de los datos están por debajo de este valor).
*   `max`: El valor máximo.

### Estadísticas para Variables Categóricas



In [27]:
# Utilizar .describe(include="object") para obtener las estadísticas de las variables categóricas
print("\nEstadísticas descriptivas para variables categóricas:")
df.describe(include = "object").T


Estadísticas descriptivas para variables categóricas:


Unnamed: 0,count,unique,top,freq
job,42655,11,admin.,10873
marital,42915,3,MARRIED,25999
education,41193,7,university.degree,12722
contact,43000,2,cellular,27396
poutcome,43000,3,NONEXISTENT,37103
cons.price.idx,42529,26,93994,7938
cons.conf.idx,43000,26,-364,8020
euribor3m,33744,309,4857,2287
nr.employed,43000,11,52281,16980
y,43000,2,no,38156


In [28]:
df.describe(include = "O").T

Unnamed: 0,count,unique,top,freq
job,42655,11,admin.,10873
marital,42915,3,MARRIED,25999
education,41193,7,university.degree,12722
contact,43000,2,cellular,27396
poutcome,43000,3,NONEXISTENT,37103
cons.price.idx,42529,26,93994,7938
cons.conf.idx,43000,26,-364,8020
euribor3m,33744,309,4857,2287
nr.employed,43000,11,52281,16980
y,43000,2,no,38156




**Entendiendo los Resultados (Ejemplo para `job`)**:
*   `count`: Número de observaciones no nulas.
*   `unique`: La cantidad de valores únicos.
*   `top`: El valor más común (la categoría predominante).
*   `freq`: La frecuencia del valor más común.

---

## 4. Exploración de Valores Únicos y Frecuencias

Dos métodos clave en el análisis preliminar de datos para variables categóricas son `.unique()` y `.value_counts()`.

*   `.unique()`: Devuelve un *array* con los valores distintos presentes en una columna.
*   `.value_counts()`: Cuenta la frecuencia de cada valor en una columna, mostrando el valor como índice y el recuento como valor.

### Aplicación a una Columna Específica (`marital`)



In [30]:
# Obtener los valores únicos para la columna 'marital'
print("Valores únicos para la columna 'marital':")
df["marital"].unique() # df.marital.unique()

Valores únicos para la columna 'marital':


array(['MARRIED', 'SINGLE', 'DIVORCED', nan], dtype=object)

In [49]:
# Obtener cantidad de valores únicos para la columna 'marital'
df["marital"].nunique(dropna=False) 

4

In [50]:
df["education"].unique()

array(['basic.4y', 'high.school', 'basic.6y', 'basic.9y',
       'professional.course', nan, 'university.degree', 'illiterate'],
      dtype=object)

In [52]:
df["education"].nunique(dropna=False)


8

In [32]:
# Obtener las frecuencias de cada valor único para la columna 'marital'
print("\nFrecuencias de los valores únicos para la columna 'marital':")
df["marital"].value_counts()


Frecuencias de los valores únicos para la columna 'marital':


marital
MARRIED     25999
SINGLE      12105
DIVORCED     4811
Name: count, dtype: int64

In [33]:
df["marital"].value_counts(dropna=False)

marital
MARRIED     25999
SINGLE      12105
DIVORCED     4811
NaN            85
Name: count, dtype: int64

In [38]:
round(df["marital"].value_counts(dropna=False, normalize=True)*100, 2)

marital
MARRIED     60.46
SINGLE      28.15
DIVORCED    11.19
NaN          0.20
Name: proportion, dtype: float64



### Exploración de Todas las Columnas Categóricas

Para explorar todas las columnas categóricas, primero necesitamos seleccionarlas, luego eliminar aquellas que no sean verdaderamente categóricas (como números convertidos a texto), y finalmente iterar sobre ellas.

**1. Seleccionar columnas categóricas (`.select_dtypes()`):**
El método `df.select_dtypes()` nos permite seleccionar columnas basándose en su tipo de datos. Usaremos `include = "object"` para obtener columnas de tipo cadena (categorías).



In [53]:
# Seleccionar todas las columnas de tipo 'object' (categóricas)
df_cat = df.select_dtypes(include = "object")
df_cat.head()

Unnamed: 0,job,marital,education,contact,poutcome,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,id_
0,housemaid,MARRIED,basic.4y,telephone,NONEXISTENT,93994,-364,4857.0,5191,no,2-agosto-2019,089b39d8-e4d0-461b-87d4-814d71e0e079
1,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,,5191,no,14-septiembre-2016,e9d37224-cb6f-4942-98d7-46672963d097
2,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,4857.0,5191,no,15-febrero-2019,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,admin.,MARRIED,basic.6y,telephone,NONEXISTENT,93994,-364,,5191,no,29-noviembre-2015,9991fafb-4447-451a-8be2-b0df6098d13e
4,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,,5191,no,29-enero-2017,eca60b76-70b6-4077-80ba-bc52e8ebb0eb




**2. Eliminar columnas que no son categóricas:**
Observamos que algunas columnas numéricas (`cons.price.idx`, `cons.conf.idx`, `euribor3m`, `nr.employed`) y `date` fueron importadas como 'object' (string) debido al formato de decimales (comas en lugar de puntos). Debemos eliminarlas de `df_cat` para un análisis categórico preciso. Usamos `.drop()` para esto.



In [54]:
# Columnas identificadas incorrectamente como 'object' pero que son numéricas o de fecha
columnas_a_eliminar = ['cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed', 'date']

In [55]:
# Eliminar estas columnas del DataFrame df_cat
# axis=1 indica que queremos eliminar columnas
# inplace=True modifica el DataFrame original directamente
df_cat.drop(columnas_a_eliminar, axis = 1, inplace=True)
df_cat.head()

Unnamed: 0,job,marital,education,contact,poutcome,y,id_
0,housemaid,MARRIED,basic.4y,telephone,NONEXISTENT,no,089b39d8-e4d0-461b-87d4-814d71e0e079
1,services,MARRIED,high.school,telephone,NONEXISTENT,no,e9d37224-cb6f-4942-98d7-46672963d097
2,services,MARRIED,high.school,telephone,NONEXISTENT,no,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,admin.,MARRIED,basic.6y,telephone,NONEXISTENT,no,9991fafb-4447-451a-8be2-b0df6098d13e
4,services,MARRIED,high.school,telephone,NONEXISTENT,no,eca60b76-70b6-4077-80ba-bc52e8ebb0eb




**3. Iterar y mostrar valores únicos y frecuencias:**
Ahora, iteramos a través de las columnas restantes en `df_cat` para obtener sus valores únicos y sus conteos de frecuencia.



In [56]:
# Obtener los nombres de las columnas categóricas limpias
columnas_cat = df_cat.columns
print(f"\nLas columnas del DataFrame de variables categóricas son: {list(columnas_cat)}")


Las columnas del DataFrame de variables categóricas son: ['job', 'marital', 'education', 'contact', 'poutcome', 'y', 'id_']


In [60]:
# Iterar sobre cada columna categórica para mostrar sus valores únicos y frecuencias
for columna in columnas_cat:
    print(f"\n----------- ESTAMOS ANALIZANDO LA COLUMNA: '{columna.upper()}' -----------\n")
    print(f"Sus valores únicos son: {df_cat[columna].unique()}\n")
    print(f"Las frecuencias de los valores únicos de las categorías son:\n{df_cat[columna].value_counts()} ")


----------- ESTAMOS ANALIZANDO LA COLUMNA: 'JOB' -----------

Sus valores únicos son: ['housemaid' 'services' 'admin.' 'blue-collar' 'technician' 'retired'
 'management' 'unemployed' 'self-employed' nan 'entrepreneur' 'student']

Las frecuencias de los valores únicos de las categorías son:
job
admin.           10873
blue-collar       9654
technician        7026
services          4162
management        3050
retired           1790
entrepreneur      1522
self-employed     1489
housemaid         1123
unemployed        1063
student            903
Name: count, dtype: int64 

----------- ESTAMOS ANALIZANDO LA COLUMNA: 'MARITAL' -----------

Sus valores únicos son: ['MARRIED' 'SINGLE' 'DIVORCED' nan]

Las frecuencias de los valores únicos de las categorías son:
marital
MARRIED     25999
SINGLE      12105
DIVORCED     4811
Name: count, dtype: int64 

----------- ESTAMOS ANALIZANDO LA COLUMNA: 'EDUCATION' -----------

Sus valores únicos son: ['basic.4y' 'high.school' 'basic.6y' 'basic.9y' 'prof



---

## 5. Identificación de Valores Nulos

Los **valores nulos** (también conocidos como valores faltantes o *missing values*) son datos que no están presentes en una columna. Pueden deberse a errores de recopilación, problemas técnicos o simplemente ausencia de información. Es crucial gestionarlos porque pueden **afectar la precisión y confiabilidad** de nuestros análisis y comprometer la integridad de los datos.

### Tipos Comunes de Valores Nulos en Pandas:
*   **`NaN` (Not a Number)**: El tipo más común para columnas numéricas.
*   **`None`**: Equivalente a "no hay valor" para cualquier tipo de dato.
*   **Valores de texto**: Cadenas como "n/a", "NaN", "nan", "null".
*   **Códigos numéricos**: Números como 99999 o 00000 que representan datos faltantes.
*   **`NaT` (Not a Time)**: Para columnas de fechas y horas (`datetime`).

### Métodos para Identificar Valores Nulos:

*   **`.isnull()` / `.isna()`**: Devuelve un DataFrame booleano (True para nulos, False para no nulos). `.isna()` es idéntico a `.isnull()`.
*   **`.notnull()`**: Opuesto a `.isnull()`, devuelve True para valores no nulos.
*   **`.sum()`**: Usado en combinación con `.isnull()` para contar el total de valores nulos por columna.
*   **`.info()`**: Proporciona un resumen conciso del DataFrame, incluyendo el número de valores **no nulos** en cada columna, lo que ayuda a identificar rápidamente las columnas con nulos.

### Ejemplos Prácticos:



In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 43000 entries, 0 to 27570
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             37880 non-null  float64
 1   job             42655 non-null  object 
 2   marital         42915 non-null  object 
 3   education       41193 non-null  object 
 4   default         34019 non-null  float64
 5   housing         41974 non-null  float64
 6   loan            41974 non-null  float64
 7   contact         43000 non-null  object 
 8   duration        43000 non-null  int64  
 9   campaign        43000 non-null  int64  
 10  pdays           43000 non-null  int64  
 11  previous        43000 non-null  int64  
 12  poutcome        43000 non-null  object 
 13  emp.var.rate    43000 non-null  float64
 14  cons.price.idx  42529 non-null  object 
 15  cons.conf.idx   43000 non-null  object 
 16  euribor3m       33744 non-null  object 
 17  nr.employed     43000 non-null  obje

In [63]:
# ¿Cuántos valores nulos tenemos en la columna 'default'?
print("Valores nulos en la columna 'default' (booleano):")
df["default"].isnull()

Valores nulos en la columna 'default' (booleano):


0        False
1         True
2        False
3        False
4        False
         ...  
19154    False
26206    False
15046    False
15280     True
27570    False
Name: default, Length: 43000, dtype: bool

In [64]:
# Para obtener el recuento, usamos .sum()
print("\nNúmero de valores nulos en la columna 'default':")
df["default"].isnull().sum() 


Número de valores nulos en la columna 'default':


8981

In [66]:
# Contar valores nulos para todo el DataFrame (por columna)
print("\nNúmero de valores nulos por columna en todo el DataFrame:")
df.isnull().sum()
# Aquí vemos nulos en 'age', 'job', 'marital', 'education', 'default', 'housing', 'loan', 'cons.price.idx', 'euribor3m', 'date'.


Número de valores nulos por columna en todo el DataFrame:


age               5120
job                345
marital             85
education         1807
default           8981
housing           1026
loan              1026
contact              0
duration             0
campaign             0
pdays                0
previous             0
poutcome             0
emp.var.rate         0
cons.price.idx     471
cons.conf.idx        0
euribor3m         9256
nr.employed          0
y                    0
date               248
latitude             0
longitude            0
id_                  0
dtype: int64

In [67]:
round(df.isnull().sum()/df.shape[0] *100, 2)

age               11.91
job                0.80
marital            0.20
education          4.20
default           20.89
housing            2.39
loan               2.39
contact            0.00
duration           0.00
campaign           0.00
pdays              0.00
previous           0.00
poutcome           0.00
emp.var.rate       0.00
cons.price.idx     1.10
cons.conf.idx      0.00
euribor3m         21.53
nr.employed        0.00
y                  0.00
date               0.58
latitude           0.00
longitude          0.00
id_                0.00
dtype: float64

In [68]:
# Ejemplo con .notnull() para la columna 'default'
print("\nNúmero de valores NO nulos en la columna 'default':")
df["default"].notnull().sum()


Número de valores NO nulos en la columna 'default':


34019

In [69]:
# Usando .info() para un resumen rápido de los valores no nulos
df.info()
# .info() nos indica el número total de filas, columnas, nombres de columnas, tipos de datos, y el conteo de valores no nulos por columna.

<class 'pandas.core.frame.DataFrame'>
Index: 43000 entries, 0 to 27570
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             37880 non-null  float64
 1   job             42655 non-null  object 
 2   marital         42915 non-null  object 
 3   education       41193 non-null  object 
 4   default         34019 non-null  float64
 5   housing         41974 non-null  float64
 6   loan            41974 non-null  float64
 7   contact         43000 non-null  object 
 8   duration        43000 non-null  int64  
 9   campaign        43000 non-null  int64  
 10  pdays           43000 non-null  int64  
 11  previous        43000 non-null  int64  
 12  poutcome        43000 non-null  object 
 13  emp.var.rate    43000 non-null  float64
 14  cons.price.idx  42529 non-null  object 
 15  cons.conf.idx   43000 non-null  object 
 16  euribor3m       33744 non-null  object 
 17  nr.employed     43000 non-null  obje



---

## 6. Identificación de Valores Duplicados

Los **valores duplicados** son registros o filas que se repiten en un conjunto de datos, es decir, tienen exactamente los mismos valores en todas las columnas. Aunque parezcan inofensivos, pueden **distorsionar los resultados** de nuestros análisis, afectar la eficiencia del procesamiento y generar inconsistencias.

### Causas Comunes de Duplicados:
*   **Errores de entrada**: Fallos humanos o técnicos durante la recopilación.
*   **Fusión de *datasets***: Combinar fuentes puede introducir repeticiones.
*   **Actualizaciones/Modificaciones**: Cambios mal gestionados pueden crear duplicados.

### Método para Identificar Duplicados: `.duplicated()`

El método `.duplicated()` de Pandas es la principal herramienta para identificar filas duplicadas. Devuelve una Serie booleana (True para filas duplicadas, False para únicas).

**Parámetros clave de `.duplicated()`:**
*   **`subset` (opcional)**: Permite especificar sobre qué columnas buscar duplicados. Si no se especifica, considera todas las columnas.
*   **`keep` (opcional)**: Controla qué ocurrencias de duplicados se marcan como `True`.
    *   `'first'` (predeterminado): Marca como `True` todas las filas duplicadas excepto la primera aparición.
    *   `'last'`: Marca como `True` todas las filas duplicadas excepto la última aparición.
    *   `False`: Marca **todas** las filas duplicadas como `True`.

### Ejemplos Prácticos:



In [74]:
# ¿Tenemos duplicados considerando todas las filas del DataFrame?
print("Serie booleana de filas duplicadas (considerando todas las columnas):")
df.duplicated()

Serie booleana de filas duplicadas (considerando todas las columnas):


0        False
1        False
2        False
3        False
4        False
         ...  
19154    False
26206    False
15046    False
15280    False
27570    False
Length: 43000, dtype: bool

In [75]:
# Para obtener el conteo de filas duplicadas
print("\nNúmero total de filas duplicadas en el DataFrame:")
df.duplicated().sum() # En este caso, el resultado es 0, lo que indica que no hay filas completamente duplicadas.


Número total de filas duplicadas en el DataFrame:


0

In [76]:
df.columns

Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'duration', 'campaign', 'pdays', 'previous', 'poutcome',
       'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m',
       'nr.employed', 'y', 'date', 'latitude', 'longitude', 'id_'],
      dtype='object')

In [77]:
# ¿Tenemos duplicados para una columna específica? Por ejemplo, 'date'.
# Es común tener fechas repetidas, ya que varias interacciones pueden ocurrir en el mismo día.
print("\nNúmero de valores duplicados en la columna 'date':")
df.duplicated(subset = "date").sum()


Número de valores duplicados en la columna 'date':


41139

In [78]:
# Para la columna 'id_', que debería ser única
print("\nNúmero de valores duplicados en la columna 'id_':")
df.duplicated(subset = "id_").sum() # El resultado es 0, lo cual es esperado ya que 'id_' es un identificador único.


Número de valores duplicados en la columna 'id_':


0