<a href="https://colab.research.google.com/github/never130/Politecnico_Malvinas_Mineria_de_datos/blob/main/Clase2_MDD_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exploración de Datos con Pandas y Polars

Bienvenidos a este notebook donde compararemos el uso de las bibliotecas de análisis de datos Pandas y Polars en Python. Este ejercicio está diseñado para ofrecer una visión práctica sobre cómo manipular y preparar datos para análisis más complejos.

## Generación de Datos Ficticios

Utilizaremos la biblioteca Faker para generar un conjunto de datos ficticios. Faker es una biblioteca Python que permite la creación de datos falsos pero realistas, lo cual es útil para simular datasets para pruebas y ejemplos sin utilizar datos reales. Generaremos datos que incluyen nombres, edades, ingresos y ciudades. Además, introduciremos deliberadamente algunos valores nulos y outliers para simular escenarios comunes en el análisis de datos.

### ¿Por qué valores nulos y outliers?

- **Valores Nulos**: En la vida real, es común encontrar datos incompletos o ausentes. Aprender a manejar valores nulos es esencial para realizar análisis de datos precisos.
- **Outliers**: Los valores atípicos pueden distorsionar los resultados de los análisis y modelos estadísticos. Identificar y tratar con estos valores es crucial para mantener la integridad de cualquier análisis.

A continuación, generaremos el dataset y procederemos con las tareas de manipulación de datos utilizando ambas bibliotecas.


In [None]:
!pip install faker

Collecting faker
  Downloading Faker-28.1.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-28.1.0-py3-none-any.whl (1.8 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.8 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.8/1.8 MB[0m [31m108.7 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m48.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-28.1.0


In [None]:
import pandas as pd
import polars as pl
from faker import Faker
import numpy as np

faker = Faker()

cant = 100
# Generar datos ficticios


banco = {
    'Name': [faker.name() for _ in range(cant)],
    'Age': [faker.random_int(min=18, max=80) for _ in range(cant)],
    'Income': [faker.random_number(digits=5) for _ in range(cant)],
    'City': [faker.city() for _ in range(cant)]
}

# Introducir valores nulos aleatoriamente en 'Income'
for _ in range(2):  # Añadir 10 valores nulos
    banco['Income'][np.random.randint(0, cant)] = None

# Introducir outliers en 'Age'
banco['Age'][np.random.randint(0, cant)] = 120  # Añadir un outlier extremo
print(banco)



{'Name': ['Michael Cook', 'Amber Perkins', 'Kimberly Davila', 'Erika Armstrong', 'Jeremiah Mercado', 'Charles Ross', 'Jonathan Woods', 'Sarah Thomas', 'Alexander Richards', 'Tony Rocha', 'Sean Estrada PhD', 'Crystal Castaneda', 'Katrina Myers', 'Julia Bond', 'Jennifer Roman', 'Olivia Davis', 'Linda Dominguez', 'Walter Zavala', 'Julie Espinoza', 'John Cole', 'Dr. Carl Smith', 'Heather Haynes', 'Jessica Newman', 'Thomas Davis', 'Mr. John Shaw', 'Steven Cochran', 'Roger Flynn', 'Isabel Murphy', 'Jacob Jones', 'Evan Smith', 'Jason Thompson', 'Carla Ferguson', 'Robert Fletcher', 'Mr. Jason Arnold', 'David Murphy', 'Timothy Miller', 'Rodney Bender', 'Kristina Hart', 'Christina Garcia', 'Andrew Hall', 'Phillip Moody', 'Donald Marsh', 'Bonnie Page', 'Andrew Stevenson', 'Kenneth Allison', 'Teresa Mcbride', 'Emily Cooley', 'Kevin Mitchell', 'Jesus Hall', 'Laura Jones', 'Patricia Williams', 'Dustin Craig', 'Rachel Wood', 'Nicholas Cook', 'Angel Moses', 'Kathleen Evans', 'Thomas Hill', 'Tammy Higg

In [None]:
df_pandas = pd.DataFrame(banco)
# Mostrar los primeros registros de cada DataFrame
print("Pandas DataFrame:")
#print(df_pandas.head(10))
df_pandas

Pandas DataFrame:


Unnamed: 0,Name,Age,Income,City
0,Michael Cook,45,49597.0,Lake Janetview
1,Amber Perkins,31,2444.0,South Deborahmouth
2,Kimberly Davila,40,11320.0,Ritterstad
3,Erika Armstrong,39,60854.0,Heathershire
4,Jeremiah Mercado,78,88894.0,West Amystad
...,...,...,...,...
95,Melissa Brown,56,7083.0,Lake Elizabeth
96,Leslie Villanueva,45,25497.0,Dawnfurt
97,Glenn Miller,71,24985.0,Port Norma
98,David Barnes,53,85362.0,Clarkside


In [None]:
df_polars = pl.DataFrame(banco)
print("\nPolars DataFrame:")
df_polars


Polars DataFrame:


Name,Age,Income,City
str,i64,i64,str
"""Gary Robinson""",37,,"""Jimenezfurt"""
"""Kaitlyn White""",39,49386.0,"""Lake Sean"""
"""Crystal Hill""",57,40068.0,"""North Kristi"""
"""Julie White""",120,86221.0,"""Williamport"""
"""Michelle Crosb…",34,32668.0,"""Tiffanymouth"""
"""Jackie Brown""",68,468.0,"""Williamfort"""
"""Paul Sweeney""",68,,"""Thompsonville"""
"""James Smith""",59,42759.0,"""South Ericboro…"
"""Valerie Ross""",28,8667.0,"""Port David"""
"""Cody Rivera""",70,47392.0,"""Bradyview"""


## Análisis Exploratorio de Datos

Una vez generado nuestro dataset, el siguiente paso es realizar un análisis exploratorio inicial. Este análisis incluye la verificación de la cantidad de valores nulos, exploración de los tipos de datos y la generación de resúmenes estadísticos básicos. Estos pasos son fundamentales para entender la estructura y calidad de los datos con los que estamos trabajando.

### Verificación de Valores Nulos

Los valores nulos pueden afectar significativamente la calidad de los análisis y modelos predictivos. Es crucial identificar y entender la cantidad de valores nulos en nuestro dataset.

### Resumen Estadístico

El resumen estadístico nos proporciona una visión rápida de las tendencias centrales, la dispersión y la forma de la distribución de los datos.

### Tipos de Datos

Comprender los tipos de datos es esencial para asegurar que las operaciones de datos se realicen correctamente sin errores de tipo.


In [None]:
# Pandas: Análisis de valores nulos
print("Pandas - Valores Nulos por Columna:")
print(df_pandas.isnull().sum())

# Pandas: Resumen estadístico
print("\nPandas - Resumen Estadístico:")
print(df_pandas.describe())

# Pandas: Tipos de datos
print("\nPandas - Tipos de Datos:")
print(df_pandas.dtypes)

Pandas - Valores Nulos por Columna:
Name      0
Age       0
Income    2
City      0
dtype: int64

Pandas - Resumen Estadístico:
              Age        Income
count  100.000000     98.000000
mean    50.040000  48786.346939
std     19.769847  29377.260072
min     18.000000   1173.000000
25%     35.750000  23452.750000
50%     48.500000  46245.000000
75%     65.250000  76895.250000
max    120.000000  99434.000000

Pandas - Tipos de Datos:
Name       object
Age         int64
Income    float64
City       object
dtype: object


In [None]:
# Polars: Análisis de valores nulos
print("\nPolars - Valores Nulos por Columna:")
print(df_polars.null_count())

# Polars: Resumen estadístico
print("\nPolars - Resumen Estadístico:")
print(df_polars.describe())

# Polars: Tipos de datos
print("\nPolars - Tipos de Datos:")
print(df_polars.schema)


Polars - Valores Nulos por Columna:
shape: (1, 4)
┌──────┬─────┬────────┬──────┐
│ Name ┆ Age ┆ Income ┆ City │
│ ---  ┆ --- ┆ ---    ┆ ---  │
│ u32  ┆ u32 ┆ u32    ┆ u32  │
╞══════╪═════╪════════╪══════╡
│ 0    ┆ 0   ┆ 2      ┆ 0    │
└──────┴─────┴────────┴──────┘

Polars - Resumen Estadístico:
shape: (9, 5)
┌────────────┬──────────────┬───────────┬─────────────┬─────────────┐
│ describe   ┆ Name         ┆ Age       ┆ Income      ┆ City        │
│ ---        ┆ ---          ┆ ---       ┆ ---         ┆ ---         │
│ str        ┆ str          ┆ f64       ┆ f64         ┆ str         │
╞════════════╪══════════════╪═══════════╪═════════════╪═════════════╡
│ count      ┆ 10           ┆ 10.0      ┆ 8.0         ┆ 10          │
│ null_count ┆ 0            ┆ 0.0       ┆ 2.0         ┆ 0           │
│ mean       ┆ null         ┆ 58.0      ┆ 38453.625   ┆ null        │
│ std        ┆ null         ┆ 26.807959 ┆ 26365.29141 ┆ null        │
│ min        ┆ Cody Rivera  ┆ 28.0      ┆ 468.0       ┆ B

## Tratamiento de Valores Nulos

Los valores nulos pueden ser un indicativo de datos perdidos, errores durante la recopilación de datos o entradas no aplicables. El tratamiento adecuado de estos valores es esencial para realizar análisis precisos y evitar resultados erróneos. Existen varias estrategias para manejar los valores nulos:

- **Eliminación**: Remover las filas o columnas que contienen valores nulos.
- **Imputación**: Sustituir los valores nulos por un valor estimado, como la media, mediana o moda de la columna.
- **Marcado**: En algunos casos, puede ser útil convertir valores nulos en un valor específico que indique "desconocido" o "no aplicable".

Exploraremos cómo implementar estas estrategias usando Pandas y Polars.


In [None]:
# Pandas: Estrategias de tratamiento de valores nulos

# Eliminación de filas con valores nulos
df_pandas_dropped = df_pandas.dropna()

# Imputación con la media
df_pandas_filled_mean = df_pandas.fillna(df_pandas['Income'].mean())

# Imputación con un valor específico
df_pandas_filled_specific = df_pandas.fillna({'Income': -1})  # por ejemplo, -1 para ingresos desconocidos

In [None]:
# Polars: Estrategias de tratamiento de valores nulos

# Eliminación de filas con valores nulos
df_polars_dropped = df_polars.drop_nulls()

# Especificar el umbral de valores nulos: Puedes usar el argumento keep_percent en drop_nulls()
# para especificar el porcentaje mínimo de valores no nulos que debe tener una fila para conservarse.


# Imputación con la media
# Imputar la media a los valores nulos en "columna_con_nulos"
df_polars_filled_mean = df_polars["Income"].fill_nan(df_polars['Income'].mean())

# Imputar el valor "valor_especifico" a los valores nulos en "columna_con_nulos"
columna_con_media= df_polars['Income'].fill_nan(value="valor_especifico")

In [None]:
# Mostrar resultados
print("Pandas - Imputación con la media:")
print(df_pandas_filled_mean.head())
print("\nPolars - Imputación con la media:")
print(df_polars_filled_mean.head())

Pandas - Imputación con la media:
              Name  Age   Income             City
0       Robert Lee   34  82004.0  North Paigefurt
1  Michael Hartman   51  44321.0          Ianside
2     Tyler Cooper   22   1894.0     North Carrie
3    Cassie Murray   60  27897.0        Port John
4   Timothy Hinton   71  49697.0     Lake Rebecca

Polars - Imputación con la media:
shape: (10,)
Series: 'Income' [f64]
[
	82004.0
	44321.0
	1894.0
	27897.0
	49697.0
	48526.0
	42623.0
	2483.0
	57779.0
	35821.0
]
