In [1]:
import pandas as pd
import numpy as np

In [2]:
# Simulamos los datos de la imagen como un DataFrame
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
    'first_name': ['Clayborne', 'Silvana', 'Terrel', 'Wheeler', 'Kristen', 'Valentijn', 'Vanna', 'Morten', 'Marley', 'Hedy', 'Inessa', 'Denna', 'Merwin', 'Flora', 'Dorian'],
    'last_name': ['Troth', 'Honacker', 'Neubigin', 'Gulliman', 'Wennington', 'Disney', 'Boddam', 'Wheatley', 'Marc', 'Twelvetree', 'Baison', 'Silvester', 'Cable', 'Coyle', 'Pietruschka'],
    'email': ['ctroth0@fema.gov', 'shonacker1@geocities.com', 'tneubigin2@gmpg.org', 'wgulliman3@imgur.com', 'kwennington4@over-blog.com', 'vdinsey5@t.co', 'vboddam6@google.co.jp', 'mwheatley7@hao123.com', 'mmarc8@youtu.be', 'htwelvetree9@addtoany.com', 'ibaisona@nasa.gov', 'dsilvesterb@dagondesign.com', 'mcablec@issuu.com', 'fcoyled@psu.edu', 'dpietruschkae@unblog.fr'],
    'gender': ['Male', 'Female', 'Non-binary', 'Male', 'Female', 'Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Female', 'Male', 'Female', 'Male'],
    'ip_address': ['52.52.251.108', '31.125.255.68', '110.178.187.165', '80.198.38.195', '157.147.160.234', '34.132.111.172', '237.252.31.16', '153.18.225.90', '246.172.113.99', '223.174.204.172', '8.175.220.189', '32.60.139.139', '37.4.116.194', '111.230.221.7', '53.234.144.5']
}

df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Clayborne,Troth,ctroth0@fema.gov,Male,52.52.251.108
1,2,Silvana,Honacker,shonacker1@geocities.com,Female,31.125.255.68
2,3,Terrel,Neubigin,tneubigin2@gmpg.org,Non-binary,110.178.187.165
3,4,Wheeler,Gulliman,wgulliman3@imgur.com,Male,80.198.38.195
4,5,Kristen,Wennington,kwennington4@over-blog.com,Female,157.147.160.234
5,6,Valentijn,Disney,vdinsey5@t.co,Male,34.132.111.172
6,7,Vanna,Boddam,vboddam6@google.co.jp,Female,237.252.31.16
7,8,Morten,Wheatley,mwheatley7@hao123.com,Male,153.18.225.90
8,9,Marley,Marc,mmarc8@youtu.be,Female,246.172.113.99
9,10,Hedy,Twelvetree,htwelvetree9@addtoany.com,Female,223.174.204.172


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           15 non-null     int64 
 1   first_name   15 non-null     object
 2   last_name    15 non-null     object
 3   email        15 non-null     object
 4   gender       15 non-null     object
 5   ip_address   15 non-null     object
dtypes: int64(1), object(5)
memory usage: 848.0+ bytes


*La función `df.info()` proporciona un resumen conciso del DataFrame. Indica que tiene 15 filas (índice 0 a 14) y 6 columnas: `id` (entero, sin valores nulos), `first_name`, `last_name`, `email`, `gender` e `ip_address` (todos tipo objeto/string, sin valores nulos). El uso de memoria es muy bajo (aproximadamente 848 bytes), lo cual es esperable para un dataset pequeño.*

In [5]:
df.describe()

Unnamed: 0,id
count,15.0
mean,8.0
std,4.358899
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


*La función `df.describe()` genera estadísticas descriptivas solo para las columnas numéricas. En este caso, solo la columna `id` es numérica. Muestra la cantidad de valores (15), la media (8.0), la desviación estándar (4.36), el mínimo (1), los cuartiles (25%, 50%, 75%) y el máximo (15). Esto confirma que los IDs van consecutivamente del 1 al 15.*

In [6]:
nulos = df.isnull().sum()
print("Valores nulos por columna:")
print(nulos)

Valores nulos por columna:
id             0
first_name     0
last_name      0
email          0
gender         0
ip_address     0
dtype: int64


*Este código verifica si hay valores nulos en el DataFrame. Como se puede ver, todas las columnas tienen 0 valores nulos, lo que significa que el conjunto de datos está completo y no requiere imputación o eliminación de filas por falta de datos.*

In [7]:
# Aunque no hay nulos, mostramos cómo sería eliminarlos
df_sin_nulos = df.dropna()
df_sin_nulos.isnull().sum()

id             0
first_name     0
last_name      0
email          0
gender         0
ip_address     0
dtype: int64

*Aunque el DataFrame original no tenía valores nulos, este código demuestra cómo usar `dropna()` para eliminar filas con valores faltantes. La salida confirma que después de aplicar `dropna()`, aún no hay valores nulos en ninguna columna, ya que no se eliminó ninguna fila.*

In [8]:
print("Número de filas antes de la eliminación:", len(df)) 
print("Número de filas después de la eliminación:", len(df_sin_nulos))

Número de filas antes de la eliminación: 15
Número de filas después de la eliminación: 15


*Este código muestra que el número de filas antes y después de aplicar `dropna()` es el mismo (15), lo que confirma que no había valores nulos para eliminar.*

In [9]:
# Renombrar las variables
df = df.rename(columns={
    'id': 'ID',
    'first_name': 'Nombre',
    'last_name': 'Apellido',
    'email': 'Email',
    'gender': 'Género',
    'ip_address': 'IP'
})
df

Unnamed: 0,ID,Nombre,Apellido,Email,Género,IP
0,1,Clayborne,Troth,ctroth0@fema.gov,Male,52.52.251.108
1,2,Silvana,Honacker,shonacker1@geocities.com,Female,31.125.255.68
2,3,Terrel,Neubigin,tneubigin2@gmpg.org,Non-binary,110.178.187.165
3,4,Wheeler,Gulliman,wgulliman3@imgur.com,Male,80.198.38.195
4,5,Kristen,Wennington,kwennington4@over-blog.com,Female,157.147.160.234
5,6,Valentijn,Disney,vdinsey5@t.co,Male,34.132.111.172
6,7,Vanna,Boddam,vboddam6@google.co.jp,Female,237.252.31.16
7,8,Morten,Wheatley,mwheatley7@hao123.com,Male,153.18.225.90
8,9,Marley,Marc,mmarc8@youtu.be,Female,246.172.113.99
9,10,Hedy,Twelvetree,htwelvetree9@addtoany.com,Female,223.174.204.172


*Este código utiliza el método `.rename()` para cambiar los nombres de las columnas del DataFrame a términos más descriptivos y en español. Se asigna el resultado de vuelta a `df`. La salida muestra el DataFrame con los nuevos nombres de columna: `ID`, `Nombre`, `Apellido`, `Email`, `Género` e `IP`.*

In [10]:
dtype_original = df.dtypes
print(df.dtypes)

ID               int64
Nombre          object
Apellido        object
Email           object
Género          object
IP              object
dtype: object


*Este código imprime los tipos de datos de cada columna del DataFrame renombrado. Confirma que `ID` es de tipo entero (`int64`) y todas las demás columnas son de tipo objeto (`object`), lo que indica que contienen cadenas de texto.*

In [11]:
# Para este dataset pequeño, no hay outliers significativos en 'ID'. Pero demostramos el proceso.
df_numerico = df.select_dtypes(include=['float64', 'int64'])

Q1 = df_numerico.quantile(0.25)
Q3 = df_numerico.quantile(0.75)
IQR = Q3 - Q1
df_numerico = df_numerico[~((df_numerico < (Q1 - 1.5 * IQR)) | (df_numerico > (Q3 + 1.5 * IQR))).any(axis=1)]

print(f"Filas antes de eliminar valores atípicos: {df.shape[0]}")
print(f"Filas después de eliminar valores atípicos: {df_numerico.shape[0]}")
print("DataFrame después de eliminar valores atípicos:")
print(df_numerico)

Filas antes de eliminar valores atípicos: 15
Filas después de eliminar valores atípicos: 15
DataFrame después de eliminar valores atípicos:
    ID
0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
9   10
10  11
11  12
12  13
13  14
14  15


*Este código selecciona las columnas numéricas (solo `ID` en este caso) y aplica el método de los cuartiles para identificar posibles valores atípicos. Dado que los valores de `ID` van del 1 al 15 consecutivamente, no hay outliers, por lo que el número de filas se mantiene en 15. El código sirve como plantilla para datasets más grandes.*

In [12]:
df_antes = df.copy()

df.drop_duplicates(inplace=True)

print(f"Número de filas con duplicados: {df_antes.shape[0]}")
print(f"Número de filas sin duplicados: {df.shape[0]}")

# Comprobar si hay duplicados restantes
duplicated = df.duplicated().sum()
print(f"Duplicados restantes: {duplicated}")

Número de filas con duplicados: 15
Número de filas sin duplicados: 15
Duplicados restantes: 0


*Este código crea una copia del DataFrame, elimina duplicados con `drop_duplicates(inplace=True)` y luego compara el número de filas antes y después. Como no había filas duplicadas, el número se mantiene en 15. Finalmente, confirma que no quedan duplicados con `df.duplicated().sum()` igual a 0.*