 # **<font color="DarkBlue">Limpieza y Preparación de Datos 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Preparación de datos</font>**

<p align="justify">
Pandas se creó originalmente a partir de las capacidades presentes en NumPy, una biblioteca de computación de matrices utilizada principalmente para trabajar con datos numéricos.
<br><br>
Muchos conceptos de Pandas, como los datos faltantes, se implementaron utilizando lo que estaba disponible en NumPy mientras se intentaba maximizar la compatibilidad entre bibliotecas que utilizaban NumPy y Pandas en conjunto.
<br><br>
Recientemente, Pandas ha desarrollado un sistema de tipos de extensión que permite agregar nuevos tipos de datos incluso si no son compatibles de forma nativa con NumPy. Estos nuevos tipos de datos se pueden tratar como de primera clase junto con los datos que provienen de matrices de NumPy.
<br><br>
Ahora vamos a ver como trabajamos con datos categóricos y cadenas de caracteres

 ## **<font color="DarkBlue">Manipulando cadenas de caracteres</font>**

<p align="justify">
Supongamos que tienes un conjunto de datos de ventas en el que hay una columna que contiene descripciones de productos en un solo campo, y deseas separarlas en columnas distintas para facilitar el análisis.
<br><br>
Esto puede ser útil para realizar un análisis más detallado de los productos vendidos y mejorar la segmentación de los datos.



In [None]:
import pandas as pd

🚀 Ejemplo:

In [None]:
# Crear un DataFrame de ejemplo
data = {
    'Ventas': [100, 200, 150, 300],
    'Productos': [
        'Laptop - Dell - 15.6 pulgadas',
        'Teléfono - Apple - iPhone 13',
        'Tablet - Samsung - Galaxy Tab',
        'Laptop - HP - 14 pulgadas'
    ]
}

df = pd.DataFrame(data)

print("DataFrame Original:")
df

DataFrame Original:


Unnamed: 0,Ventas,Productos
0,100,Laptop - Dell - 15.6 pulgadas
1,200,Teléfono - Apple - iPhone 13
2,150,Tablet - Samsung - Galaxy Tab
3,300,Laptop - HP - 14 pulgadas


In [None]:
# Usar split() para dividir la columna 'Productos' en múltiples columnas
# Usamos expand=True para crear nuevas columnas

df[['Tipo', 'Marca', 'Modelo']] = df['Productos'].str.split(' - ', expand=True)

In [None]:
print("\nDataFrame Modificado:")
df


DataFrame Modificado:


Unnamed: 0,Ventas,Productos,Tipo,Marca,Modelo
0,100,Laptop - Dell - 15.6 pulgadas,Laptop,Dell,15.6 pulgadas
1,200,Teléfono - Apple - iPhone 13,Teléfono,Apple,iPhone 13
2,150,Tablet - Samsung - Galaxy Tab,Tablet,Samsung,Galaxy Tab
3,300,Laptop - HP - 14 pulgadas,Laptop,HP,14 pulgadas


 ## **<font color="DarkBlue">Métodos para cadenas de caracteres</font>**

<p align="justify"><strong>Método</strong> - <strong>Descripción</strong></p>
<ul>
    <li><strong>cat</strong>: Concatenar cadenas elemento por elemento con delimitador opcional.</li>
    <li><strong>contains</strong>: Devuelve una matriz booleana si cada cadena contiene un patrón o una expresión regular.</li>
    <li><strong>count</strong>: Contar las ocurrencias del patrón.</li>
    <li><strong>extract</strong>: Utilice una expresión regular con grupos para extraer una o más cadenas de una serie de cadenas; el resultado será un DataFrame con una columna por grupo.</li>
    <li><strong>endswith</strong>: Equivalente a x.endswith(pattern) para cada elemento.</li>
    <li><strong>startswith</strong>: Equivalente a x.startswith(pattern) para cada elemento.</li>
    <li><strong>findall</strong>: Calcular la lista de todas las ocurrencias de patrones/expresiones regulares para cada cadena.</li>
    <li><strong>get</strong>: Índice en cada elemento (recuperar el elemento i -ésimo).</li>
    <li><strong>isalnum</strong>: Equivalente a incorporadostr.alnum.</li>
    <li><strong>isalpha</strong>: Equivalente a incorporadostr.isalpha.</li>
    <li><strong>isdecimal</strong>: Equivalente a incorporadostr.isdecimal.</li>
    <li><strong>isdigit</strong>: Equivalente a incorporadostr.isdigit.</li>
    <li><strong>islower</strong>: Equivalente a incorporadostr.islower.</li>
    <li><strong>isnumeric</strong>: Equivalente a incorporadostr.isnumeric.</li>
    <li><strong>isupper</strong>: Equivalente a incorporadostr.isupper.</li>
    <li><strong>join</strong>: Unir cadenas en cada elemento de la serie con el separador pasado.</li>
    <li><strong>len</strong>: Calcular la longitud de cada cadena.</li>
    <li><strong>lower, upper</strong>: Convertir casos; equivalente a x.lower() o x.upper() para cada elemento.</li>
    <li><strong>match</strong>: Úselo re.match con la expresión regular pasada en cada elemento, devolviendo True o False si coincide.</li>
    <li><strong>pad</strong>: Agregar espacios en blanco a la izquierda, a la derecha o a ambos lados de las cadenas.</li>
    <li><strong>center</strong>: Equivalente a pad(side="both").</li>
    <li><strong>repeat</strong>: Valores duplicados (por ejemplo, s.str.repeat(3) es equivalente a x * 3 para cada cadena).</li>
    <li><strong>replace</strong>: Reemplazar las ocurrencias de un patrón o expresión regular con alguna otra cadena.</li>
    <li><strong>slice</strong>: Corta cada cuerda en la serie.</li>
    <li><strong>split</strong>: Dividir cadenas por delimitador o expresión regular.</li>
    <li><strong>strip</strong>: Recortar los espacios en blanco de ambos lados, incluidas las nuevas líneas.</li>
    <li><strong>rstrip</strong>: Recortar espacios en blanco en el lado derecho.</li>
    <li><strong>lstrip</strong>: Recortar espacios en blanco en el lado izquierdo.</li>
</ul>


 ## **<font color="DarkBlue">Datos categóricos</font>**

<p align="justify">
Supongamos que tenemos un DataFrame que contiene información sobre las ventas de diferentes productos en una tienda. Queremos analizar las ventas de ciertas categorías de productos y utilizar el método <code>take()</code> para seleccionar filas específicas del DataFrame.

In [None]:
# Crear un DataFrame de ejemplo con datos de ventas
data = {
    'Producto': ['Laptop', 'Smartphone', 'Tablet', 'Smartwatch', 'Laptop', 'Smartphone', 'Tablet', 'Smartwatch'],
    'Categoría': ['Electrónica', 'Electrónica', 'Electrónica', 'Accesorios', 'Electrónica', 'Electrónica', 'Electrónica', 'Accesorios'],
    'Ventas': [1200, 800, 300, 150, 1400, 900, 450, 200],
    'Cantidad': [5, 4, 2, 3, 7, 5, 3, 2]
}

df = pd.DataFrame(data)

print("Datos de Ventas:")
df

Datos de Ventas:


Unnamed: 0,Producto,Categoría,Ventas,Cantidad
0,Laptop,Electrónica,1200,5
1,Smartphone,Electrónica,800,4
2,Tablet,Electrónica,300,2
3,Smartwatch,Accesorios,150,3
4,Laptop,Electrónica,1400,7
5,Smartphone,Electrónica,900,5
6,Tablet,Electrónica,450,3
7,Smartwatch,Accesorios,200,2


In [None]:
# Filtrar las filas donde la categoría es 'Electrónica'

categoría_electrónica = df[df['Categoría'] == 'Electrónica']
categoría_electrónica

Unnamed: 0,Producto,Categoría,Ventas,Cantidad
0,Laptop,Electrónica,1200,5
1,Smartphone,Electrónica,800,4
2,Tablet,Electrónica,300,2
4,Laptop,Electrónica,1400,7
5,Smartphone,Electrónica,900,5
6,Tablet,Electrónica,450,3


In [None]:
# Usar el método take() para seleccionar las primeras 3 filas de la categoría 'Electrónica'

resultados_electrónicos = categoría_electrónica.take([0, 1, 2])
resultados_electrónicos

Unnamed: 0,Producto,Categoría,Ventas,Cantidad
0,Laptop,Electrónica,1200,5
1,Smartphone,Electrónica,800,4
2,Tablet,Electrónica,300,2


 ## **<font color="DarkBlue">Métodos categóricos en series</font>**

<p align="justify">
Las series que contienen datos categóricos tienen varios métodos especiales
<br><br>
Imaginemos que una tienda de electrónica vende varios tipos de productos y desea analizar las ventas por categoría
<br><br>
 Usaremos una Serie de Pandas para representar las categorías de frutas y aplicaremos métodos categóricos como:

- value_counts(),
- cat.codes, y
- cat.categories.





In [None]:
# Crear una Serie de Pandas con datos categóricos de productos vendidos

productos_vendidos = pd.Series(['Smartphone', 'Laptop', 'Tablet', 'Smartphone', 'Smartwatch',
                                 'Laptop', 'Tablet', 'Smartwatch', 'Headphones', 'Laptop'])


In [None]:
# Convertir la Serie en un tipo categórico

productos_categoricos = productos_vendidos.astype('category')

In [None]:
# Mostrar la Serie original y su tipo

print("Serie Original de Productos Vendidos:")
productos_vendidos.name = "Productos Vendidos"
productos_vendidos

Serie Original de Productos Vendidos:


Unnamed: 0,Productos Vendidos
0,Smartphone
1,Laptop
2,Tablet
3,Smartphone
4,Smartwatch
5,Laptop
6,Tablet
7,Smartwatch
8,Headphones
9,Laptop


In [None]:
print("\nTipo Categórico de Productos:")
productos_categoricos.name = "Categórico de Productos"
productos_categoricos


Tipo Categórico de Productos:


Unnamed: 0,Categórico de Productos
0,Smartphone
1,Laptop
2,Tablet
3,Smartphone
4,Smartwatch
5,Laptop
6,Tablet
7,Smartwatch
8,Headphones
9,Laptop


In [None]:
# Usar value_counts() para contar las ocurrencias de cada categoría

conteo_productos = productos_categoricos.value_counts()
print("\nConteo de Productos Vendidos:")
conteo_productos.name = "Conteo de Productos"
conteo_productos


Conteo de Productos Vendidos:


Unnamed: 0_level_0,Conteo de Productos
Categórico de Productos,Unnamed: 1_level_1
Laptop,3
Smartphone,2
Smartwatch,2
Tablet,2
Headphones,1


In [None]:
# Obtener los códigos de las categorías

codigos_productos = productos_categoricos.cat.codes
print("\nCódigos de los Productos:")
codigos_productos.name = "Códigos de Productos"
codigos_productos



Códigos de los Productos:


Unnamed: 0,Códigos de Productos
0,2
1,1
2,4
3,2
4,3
5,1
6,4
7,3
8,0
9,1


In [None]:
# Obtener las categorías únicas

categorias_unicas = productos_categoricos.cat.categories
print("\nCategorías Únicas de Productos:")
categorias_unicas


Categorías Únicas de Productos:


Index(['Headphones', 'Laptop', 'Smartphone', 'Smartwatch', 'Tablet'], dtype='object')

In [None]:
# Modificar las categorías (añadir una nueva categoría)

productos_categoricos = productos_categoricos.cat.add_categories(['Camera'])
print("\nCategorías Actualizadas de Productos:")
productos_categoricos.cat.categories


Categorías Actualizadas de Productos:


Index(['Headphones', 'Laptop', 'Smartphone', 'Smartwatch', 'Tablet', 'Camera'], dtype='object')

In [None]:
# Asignar algunos productos a la nueva categoría

productos_categoricos[0] = 'Camera'  # Cambiando 'Smartphone' a 'Camera'

In [None]:
print("\nSerie de Productos Vendidos Actualizada:")
productos_categoricos.name = "Productos Vendidos"
productos_categoricos


Serie de Productos Vendidos Actualizada:


Unnamed: 0,Productos Vendidos
0,Camera
1,Laptop
2,Tablet
3,Smartphone
4,Smartwatch
5,Laptop
6,Tablet
7,Smartwatch
8,Headphones
9,Laptop


In [None]:
# Verificar los nuevos códigos y conteos después de la modificación

print("\nCódigos de los Productos Actualizados:")
productos_actualizados = productos_categoricos.cat.codes
productos_actualizados.name = "Códigos de Productos"
productos_actualizados


Códigos de los Productos Actualizados:


Unnamed: 0,Códigos de Productos
0,5
1,1
2,4
3,2
4,3
5,1
6,4
7,3
8,0
9,1


In [None]:
print("\nConteo de Productos Vendidos Actualizado:")
productos_categoricos.value_counts()


Conteo de Productos Vendidos Actualizado:


Unnamed: 0_level_0,count
Productos Vendidos,Unnamed: 1_level_1
Laptop,3
Smartwatch,2
Tablet,2
Headphones,1
Smartphone,1
Camera,1


Los métodos categóricos que podemos utilizar en las series, son los siguientes:



<ul>
    <li><strong>add_categories:</strong> Añadir categorías nuevas (no utilizadas) al final de las categorías existentes.</li>
    <li><strong>as_ordered:</strong> Hacer categorías ordenadas.</li>
    <li><strong>as_unordered:</strong> Hacer que las categorías estén desordenadas.</li>
    <li><strong>remove_categories:</strong> Eliminar categorías, estableciendo cualquier valor eliminado como nulo.</li>
    <li><strong>remove_unused_categories:</strong> Eliminar cualquier valor de categoría que no aparezca en los datos.</li>
    <li><strong>rename_categories:</strong> Reemplazar categorías con el conjunto indicado de nuevos nombres de categorías; no se puede cambiar el número de categorías.</li>
    <li><strong>reorder_categories:</strong> Se comporta como rename_categories, pero también puede cambiar el resultado para tener categorías ordenadas.</li>
    <li><strong>set_categories:</strong> Reemplace las categorías con el conjunto indicado de nuevas categorías; puede agregar o eliminar categorías.</li>
</ul>


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>