In [1]:
import pandas as pd

# Crear un DataFrame con problemas típicos de calidad de datos
data = {
    'Producto': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'D'],
    'Precio': ['$100', '$200', '$300', '$100', None, '$300', '$100', '$150'],
    'Cantidad': [1, 2, 3, 1, 2, None, 1, 3],
    'Fecha': ['01/01/2023', '02/01/2023', '03/01/2023', '01/01/2023', '02/01/2023', '03/01/2023', '01/01/2023', '04/01/2023'],
    'Cliente': ['Cliente1', 'Cliente2', 'Cliente3', 'Cliente1', 'Cliente2', 'Cliente3', 'Cliente1', 'Cliente4']
}

df = pd.DataFrame(data)

# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

DataFrame original:
  Producto Precio  Cantidad       Fecha   Cliente
0        A   $100       1.0  01/01/2023  Cliente1
1        B   $200       2.0  02/01/2023  Cliente2
2        C   $300       3.0  03/01/2023  Cliente3
3        A   $100       1.0  01/01/2023  Cliente1
4        B   None       2.0  02/01/2023  Cliente2
5        C   $300       NaN  03/01/2023  Cliente3
6        A   $100       1.0  01/01/2023  Cliente1
7        D   $150       3.0  04/01/2023  Cliente4


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
# Revisar la información general del DataFrame
print("\nInformación general del DataFrame:")
print(df.info())

# Verificar si hay valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Revisar duplicados
print("\nNúmero de filas duplicadas:")
print(df.duplicated().sum())

# Ver el resumen estadístico
print("\nResumen estadístico:")
print(df.describe(include='all'))


Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Producto  8 non-null      object 
 1   Precio    7 non-null      object 
 2   Cantidad  7 non-null      float64
 3   Fecha     8 non-null      object 
 4   Cliente   8 non-null      object 
dtypes: float64(1), object(4)
memory usage: 452.0+ bytes
None

Valores nulos por columna:
Producto    0
Precio      1
Cantidad    1
Fecha       0
Cliente     0
dtype: int64

Número de filas duplicadas:
2

Resumen estadístico:
       Producto Precio  Cantidad       Fecha   Cliente
count         8      7  7.000000           8         8
unique        4      4       NaN           4         4
top           A   $100       NaN  01/01/2023  Cliente1
freq          3      3       NaN           3         3
mean        NaN    NaN  1.857143         NaN       NaN
std         NaN    NaN  0.899735   

Limpieza de Datos

In [3]:
# Eliminar filas con valores nulos
df = df.dropna()

# Mostrar el DataFrame después de eliminar nulos
print("\nDataFrame después de eliminar filas con valores nulos:")
print(df)


DataFrame después de eliminar filas con valores nulos:
  Producto Precio  Cantidad       Fecha   Cliente
0        A   $100       1.0  01/01/2023  Cliente1
1        B   $200       2.0  02/01/2023  Cliente2
2        C   $300       3.0  03/01/2023  Cliente3
3        A   $100       1.0  01/01/2023  Cliente1
6        A   $100       1.0  01/01/2023  Cliente1
7        D   $150       3.0  04/01/2023  Cliente4


In [4]:
# Eliminar filas duplicadas
df = df.drop_duplicates()

# Mostrar el DataFrame después de eliminar duplicados
print("\nDataFrame después de eliminar filas duplicadas:")
print(df)


DataFrame después de eliminar filas duplicadas:
  Producto Precio  Cantidad       Fecha   Cliente
0        A   $100       1.0  01/01/2023  Cliente1
1        B   $200       2.0  02/01/2023  Cliente2
2        C   $300       3.0  03/01/2023  Cliente3
7        D   $150       3.0  04/01/2023  Cliente4


In [5]:
# Eliminar símbolos de moneda y convertir a float
df['Precio'] = df['Precio'].replace('[\$,]', '', regex=True).astype(float)

# Mostrar el DataFrame después de corregir el formato del precio
print("\nDataFrame después de corregir el formato del precio:")
print(df)


DataFrame después de corregir el formato del precio:
  Producto  Precio  Cantidad       Fecha   Cliente
0        A   100.0       1.0  01/01/2023  Cliente1
1        B   200.0       2.0  02/01/2023  Cliente2
2        C   300.0       3.0  03/01/2023  Cliente3
7        D   150.0       3.0  04/01/2023  Cliente4


Transformación de Datos

In [6]:
# Crear una nueva columna de Ingresos
df['Ingresos'] = df['Precio'] * df['Cantidad']

# Mostrar el DataFrame con la nueva columna de Ingresos
print("\nDataFrame con la columna de Ingresos:")
print(df)


DataFrame con la columna de Ingresos:
  Producto  Precio  Cantidad       Fecha   Cliente  Ingresos
0        A   100.0       1.0  01/01/2023  Cliente1     100.0
1        B   200.0       2.0  02/01/2023  Cliente2     400.0
2        C   300.0       3.0  03/01/2023  Cliente3     900.0
7        D   150.0       3.0  04/01/2023  Cliente4     450.0


In [7]:
# Convertir la columna de Fecha a formato datetime
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')

# Mostrar el DataFrame después de convertir la fecha
print("\nDataFrame después de convertir la fecha:")
print(df)


DataFrame después de convertir la fecha:
  Producto  Precio  Cantidad      Fecha   Cliente  Ingresos
0        A   100.0       1.0 2023-01-01  Cliente1     100.0
1        B   200.0       2.0 2023-01-02  Cliente2     400.0
2        C   300.0       3.0 2023-01-03  Cliente3     900.0
7        D   150.0       3.0 2023-01-04  Cliente4     450.0


In [8]:
# Asegurarnos de que los tipos de datos son correctos
print("\nTipos de datos después de la limpieza:")
print(df.dtypes)


Tipos de datos después de la limpieza:
Producto            object
Precio             float64
Cantidad           float64
Fecha       datetime64[ns]
Cliente             object
Ingresos           float64
dtype: object


In [9]:
print("\nDataFrame final:")
print(df)


DataFrame final:
  Producto  Precio  Cantidad      Fecha   Cliente  Ingresos
0        A   100.0       1.0 2023-01-01  Cliente1     100.0
1        B   200.0       2.0 2023-01-02  Cliente2     400.0
2        C   300.0       3.0 2023-01-03  Cliente3     900.0
7        D   150.0       3.0 2023-01-04  Cliente4     450.0
