In [6]:
!pip install faker polars pandas



In [12]:
import pandas as pd
import polars as pl
from faker import Faker
import numpy as np

# Inicializar Faker
fake = Faker()

# Generar datos ficticios
np.random.seed(42)
data = {
    'Name': [fake.name() for _ in range(100)],
    'Age': np.random.randint(18, 80, size=100),
    'Income': np.random.normal(50000, 15000, size=100),
    'City': [fake.city() for _ in range(100)]
}

# Crear un DataFrame de Pandas
df_pandas = pd.DataFrame(data)

# Introducir valores nulos de manera intencional
df_pandas.loc[5:10, 'Age'] = np.nan
df_pandas.loc[20:25, 'Income'] = np.nan

# Introducir outliers de manera intencional
df_pandas.loc[15, 'Income'] = 200000
df_pandas.loc[30, 'Age'] = 150

# Convertir DataFrame de Pandas a Polars
df_polars = pl.from_pandas(df_pandas)

# Mostrar las primeras filas para verificar los datos
print("Datos generados (Pandas):")
print(df_pandas.head())


Datos generados (Pandas):
                Name   Age        Income               City
0     Michele Murphy  56.0  60475.984120          Markmouth
1        Sarah Beard  69.0  47425.567472          Damonport
2       Edward Moore  46.0  36392.201298  West Yolandashire
3      Sean Anderson  32.0  67829.385896         West Sally
4  Elizabeth Cameron  60.0  61782.981867        East Ashley


In [13]:

# Análisis Exploratorio con Pandas
print("Análisis Exploratorio con Pandas")
print("Resumen Estadístico:")
print(df_pandas.describe())
print("\nValores Nulos:")
print(df_pandas.isnull().sum())

# Análisis Exploratorio con Polars
print("\nAnálisis Exploratorio con Polars")
print("Resumen Estadístico:")
print(df_polars.describe())
print("\nValores Nulos:")
print(df_polars.null_count())

Análisis Exploratorio con Pandas
Resumen Estadístico:
              Age         Income
count   94.000000      94.000000
mean    51.265957   51532.179625
std     21.714757   21605.576205
min     19.000000   12518.612875
25%     34.250000   38497.510844
50%     52.500000   49468.150640
75%     68.000000   60893.756768
max    150.000000  200000.000000

Valores Nulos:
Name      0
Age       6
Income    6
City      0
dtype: int64

Análisis Exploratorio con Polars
Resumen Estadístico:
shape: (9, 5)
┌────────────┬───────────────┬───────────┬──────────────┬────────────────┐
│ statistic  ┆ Name          ┆ Age       ┆ Income       ┆ City           │
│ ---        ┆ ---           ┆ ---       ┆ ---          ┆ ---            │
│ str        ┆ str           ┆ f64       ┆ f64          ┆ str            │
╞════════════╪═══════════════╪═══════════╪══════════════╪════════════════╡
│ count      ┆ 100           ┆ 94.0      ┆ 94.0         ┆ 100            │
│ null_count ┆ 0             ┆ 6.0       ┆ 6.0       

In [14]:
# Eliminación de filas con valores nulos
df_pandas_dropna = df_pandas.dropna()

# Imputación con la media
df_pandas_fillna_mean = df_pandas.copy()
df_pandas_fillna_mean['Age'].fillna(df_pandas['Age'].mean())
df_pandas_fillna_mean['Income'].fillna(df_pandas['Income'].mean())

# Asignación de un valor específico
df_pandas_fillna_value = df_pandas.fillna({'Age': 30, 'Income': 40000})

print("\nTratamiento de Valores Nulos con Pandas")
print(df_pandas_fillna_mean.head())


Tratamiento de Valores Nulos con Pandas
                Name   Age        Income               City
0     Michele Murphy  56.0  60475.984120          Markmouth
1        Sarah Beard  69.0  47425.567472          Damonport
2       Edward Moore  46.0  36392.201298  West Yolandashire
3      Sean Anderson  32.0  67829.385896         West Sally
4  Elizabeth Cameron  60.0  61782.981867        East Ashley


In [15]:
# Eliminación de filas con valores nulos
df_polars_dropna = df_polars.drop_nulls()

# Imputación con la media
df_polars_fillna_mean = df_polars.with_columns([
    pl.col('Age').fill_null(df_polars['Age'].mean()),
    pl.col('Income').fill_null(df_polars['Income'].mean())
])

# Asignación de un valor específico
df_polars_fillna_value = df_polars.fill_null({
    'Age': 30,
    'Income': 40000
})

print("\nTratamiento de Valores Nulos con Polars")
print(df_polars_fillna_mean.head())


Tratamiento de Valores Nulos con Polars
shape: (5, 4)
┌───────────────────┬──────┬──────────────┬───────────────────┐
│ Name              ┆ Age  ┆ Income       ┆ City              │
│ ---               ┆ ---  ┆ ---          ┆ ---               │
│ str               ┆ f64  ┆ f64          ┆ str               │
╞═══════════════════╪══════╪══════════════╪═══════════════════╡
│ Michele Murphy    ┆ 56.0 ┆ 60475.98412  ┆ Markmouth         │
│ Sarah Beard       ┆ 69.0 ┆ 47425.567472 ┆ Damonport         │
│ Edward Moore      ┆ 46.0 ┆ 36392.201298 ┆ West Yolandashire │
│ Sean Anderson     ┆ 32.0 ┆ 67829.385896 ┆ West Sally        │
│ Elizabeth Cameron ┆ 60.0 ┆ 61782.981867 ┆ East Ashley       │
└───────────────────┴──────┴──────────────┴───────────────────┘


Velocidad: Polars suele ser más rápido que Pandas para operaciones con grandes volúmenes de datos debido a su diseño optimizado.
Sintaxis: Aunque similar, Polars utiliza una sintaxis diferente para algunas operaciones, lo que puede requerir una curva de aprendizaje.
Funcionalidad: Algunas operaciones que son comunes en Pandas pueden necesitar enfoques ligeramente diferentes en Polars.