### *Necesarios*

In [2]:
import pandas as pd 

# **INTRODUCCIÓN A LA MANIPULACIÓN DE DATOS**

En ciencia de datos, la manipulación de datos hace referencia al proceso de transformar, limpiar y preparar los datos para su análisis posterior. Es una etapa fundamental en el ciclo de vida de un proyecto de ciencia de datos y puede representar una parte significativa del trabajo de un científico de datos. La manipulación de datos se realiza con el objetivo de convertir datos crudos o desorganizados en un formato adecuado y útil para la toma de decisiones, el modelado, la visualización y otros análisis.

Las tareas más comunes erelacionadas con la manipulación de datos en ciencia de datos suelen ser:

*   La limpieza de los datos
*   La transformación de datos
*   La selección y flitrado de datos
*   La agrgación y resumen de datos
*   La unión y combinación de datos
*   El manejo de valores nulos
*   Y la generación de nuevas caracteristicas



La manipulación de datos es un proceso iterativo y puede requerir una combinación de herramientas y bibliotecas, como Pandas en Python, SQL para bases de datos, y otras bibliotecas específicas para tareas de limpieza y transformación de datos. La calidad de los datos y la eficiencia en su manipulación son factores críticos para el éxito de un proyecto de ciencia de datos, ya que los resultados y las conclusiones se basan en gran medida en los datos subyacentes.

Pandas es una poderosa libreria ampliamente usada en el mundo de la ciencia de datos ya que cuenta con multiples caracteristicas de gran utilidad en el contexto de la ciencia de datos como proporcionar estructuras de datos flexibles y eficientes, como DataFrames y Series, que permiten la manipulación y análisis de datos de manera más eficaz. Estas estructuras permiten cargar, limpiar, transformar y analizar datos de manera intuitiva.

En este notebook exploraremos la forma en que podemos usar Pandas para filtrar datos, añadir y eleminar columnas y modificar valores.

# Filtrar datos 

Filtrar datos en Pandas es una operación esencial que te permite seleccionar un subconjunto de filas o columnas de un DataFrame en función de condiciones específicas. Esto es necesario en varias situaciones durante el análisis de datos por varias razones, por ejemplo:

**Enfocarse en los datos que de verdad importan**

A menudo, tus conjuntos de datos pueden contener una gran cantidad de información que no es relevante para tu análisis actual. Filtrar datos te permite centrarte en las partes de los datos que son importantes para tu pregunta o análisis.

**Limpiar tu conjunto de datos**

En ocasiones, es necesario filtrar datos para eliminar observaciones con valores nulos o incorrectos que pueden afectar tus análisis y resultados.

**Segmentar tus datos**

Puedes querer dividir tus datos en grupos específicos para compararlos o analizarlos por separado. Filtrar te permite crear subconjuntos de datos para cada grupo y tener solo aquellas variables cuya relación entre si te ayuden a responder preguntas importantes para tu análisis.

**Extraer información especifica**
Puedes buscar información específica en tus datos utilizando filtros. Por ejemplo, buscar todos los clientes que cumplan ciertos criterios o encontrar registros con características específicas.

## ¿Cómo filtrar datos en Pandas paso a paso?

Supongamos que tenemos un DataFrame llamado df con datos de empleados y queremos filtrar empleados que cumplan con ciertas condiciones, como empleados que ganan más de $50,000 al año y tienen más de 30 años.

In [None]:
#NO EJECUTAR EL CÓDIGO

#import pandas as pd  #Lo primero para trabajar con Pandas es realizar la importación de la libreria a nuestro notebook o nuetro proyecto python (según sea el caso), en este caso hemos comentado la línea correspondiente a la importación ya que está se realiza en la parte superior del notebook

# Ahora bien. Supongamos que ya tenemos un DataFrame df con datos de empleados

# Definir una condición de filtro
condicion = (df['Salario'] > 50000) & (df['Edad'] > 30)

"""

Donde: 
condicion    --Es la variable que almacenará el filtro--
df           --Hace referencia al nombre del data frame de donde extraeremos la información--
['Salario']  --Es el nombre de una de las columnas que contiene datos relevantes para nuestra consulta--
> 50000      --Es la condición que nos ayuda a selecionar datos de la columna 'Salario'--
&            --Es el operador lógico que nos ayuda a unir las dos condiciones del filtro--
['Edad']     --Es el nombre de la otra columna que contiene datos relevantes para nuestra consulta--
> 30         --Es la segunda condición que nos ayuda a seleccionar datos--



Podemos leer el filtro así:

Primera parte:

  condicion =

    En la variable condicion guarda como valor, el resultado de todo lo que se esciba despues del signo de igualdad (=)



Segunda parte:

  (df['Salario'] > 50000)

    (df['Salario']
      Del data frame df ve a la columna 'Salario',...

    > 50000)
      trae los valores que sean mayores a 50000...



Tercera parte: 

  &
    y además de la condición anterior(donde solo nos trae las series donde los valores de la columna  'Salario' son mayores a 50000)...



Cuarta parte:

  (df['Edad'] > 30)

    (df['Edad'] 
      del data frame df ve a la columna 'Edad'...

    > 30)
      trae los valores que sean mayores a 30

 
  
El filtro queda asignado a la variable 'condicion' 
"""

# Aplicar el filtro y crear un nuevo DataFrame con las filas que cumplan la condición
empleados_filtrados = df[condicion]


## Ejercicio 1

Crea un DataFrame con datos de ventas, donde algunas filas tienen valores nulos en la columna Ventas. Filtra las filas que no tienen valores nulos en la columna Ventas.

### Respuesta

In [34]:
ventas_2023 = {
    "Producto": ["cartera","zapatos_t6","zapatos_t7","zapatos_t8","zapatos_t9","camisetas_s","camisetas_m","camisetas_xl","shorts_xl","short_m", "shorts_s"],
    "unidades_vendidas": [20,50,60,90,None,120,45,24,None,None,78],
    "disponible_stock": [True,True, True,False,None, False,True,None,False,None, False]
}

In [35]:
ventas_df = pd.DataFrame(ventas_2023)
ventas_df

Unnamed: 0,Producto,unidades_vendidas,disponible_stock
0,cartera,20.0,True
1,zapatos_t6,50.0,True
2,zapatos_t7,60.0,True
3,zapatos_t8,90.0,False
4,zapatos_t9,,
5,camisetas_s,120.0,False
6,camisetas_m,45.0,True
7,camisetas_xl,24.0,
8,shorts_xl,,False
9,short_m,,


In [48]:
data_clean = ventas_df.dropna(subset=['unidades_vendidas',"disponible_stock"])
data_clean

Unnamed: 0,Producto,unidades_vendidas,disponible_stock
0,cartera,20.0,True
1,zapatos_t6,50.0,True
2,zapatos_t7,60.0,True
3,zapatos_t8,90.0,False
5,camisetas_s,120.0,False
6,camisetas_m,45.0,True
10,shorts_s,78.0,False


## Ejercicio 2

Crea un DataFrame con datos de estudiantes que incluyen las columnas Nombre, Edad y Género. Luego, filtra los estudiantes que son de género femenino.

### Respuesta

In [30]:
estudiantes = {
    "Nombre": ["Goku", "Gohan", "Bulma", "Chaos", "Milk", "Krillim"],
    "Edad": [50,35,60,52,50,52],
    "Genero": ["m","m","f","m","f","m"]
}

In [31]:
df_students = pd.DataFrame(estudiantes)
df_students

Unnamed: 0,Nombre,Edad,Genero
0,Goku,50,m
1,Gohan,35,m
2,Bulma,60,f
3,Chaos,52,m
4,Milk,50,f
5,Krillim,52,m


## Ejercicio 3

Supongamos que tienes un DataFrame con datos de ventas que incluye las columnas Producto, Ventas y Fecha. Crea un DataFrame y filtra las ventas de productos 'A' que fueron mayores de $1000 y ocurrieron en el año 2023.

### Respuesta

In [51]:
sales = {
    "product": ["camisas", "pantalones", "sombreros","suaters", "libros", "mesas", "sillas", "blusas"],
    "sales_m": [350, 2500, 120,450,500,650,100,900],
    "date": ["2022-01-12", "2023-03-03","2021-01-04", "2022-05-06", "2023-08-08", "2021-09-09", "2020-01-06", "2022-04-04"]
}

In [52]:
df_sales = pd.DataFrame(sales)
df_sales

Unnamed: 0,product,sales_m,date
0,camisas,350,2022-01-12
1,pantalones,2500,2023-03-03
2,sombreros,120,2021-01-04
3,suaters,450,2022-05-06
4,libros,500,2023-08-08
5,mesas,650,2021-09-09
6,sillas,100,2020-01-06
7,blusas,900,2022-04-04


In [54]:
v_2023 = (df_sales['sales_m'] > 1000) & (df_sales['date'].str.startswith("2023"))
v_2023 = df_sales[v_2023]
v_2023

Unnamed: 0,product,sales_m,date
1,pantalones,2500,2023-03-03


## Añadir y eliminar columnas

Añadir y eliminar columnas en Pandas es una parte esencial de la manipulación de datos, ya que te permite personalizar y transformar tus DataFrames según tus necesidades específicas. 

**¿Cuándo deberíamos añadir columnas?**

Cuando debamos crear agregar nuevas caracteristicas a nuestro data set:

A menudo, necesitas crear nuevas características o variables a partir de las existentes para mejorar el análisis o el rendimiento de los modelos. Por ejemplo, podrías calcular la edad en meses a partir de la edad en años o crear una columna que represente una variable categórica a partir de valores numéricos.

Cuando tengamos que almacenar resultados intermedios: 

Puedes añadir columnas para almacenar resultados de cálculos o transformaciones intermedias. Esto es útil para mantener un registro de los pasos que has realizado en tu análisis y mejorar la trazabilidad de tus procesos.

Cuando queramos personalizar nuestro data set:

Añadir columnas te permite personalizar el DataFrame para adaptarlo a tus necesidades específicas de análisis. Esto es algo que habitulmente deberás hacer pues cada caso de uso tiene sus particularidades y objetivos propios.

**¿Cómo añadimos columnas a nuestros data frames?**

Añadir columnas a un DataFrame es algo muy sencillo de hacer usando Pandas, aunque existen más de una forma de como hacerlo. 

*Por asignación directa:*

Lo que debemos hacer para añadir colmnas con esta forma, es simplemente asignar una Serie (que puede ser una lista, una matriz NumPy o una Serie de Pandas) a una nueva columna que aún no existe en el DataFrame.

Por ejemplo:

In [25]:
# Crear un DataFrame de ejemplo
data_plus = {'Nombre': ['Alice', 'Bob', 'Charlie'],
        'Edad': [25, 30, 35]}
df_plus = pd.DataFrame(data)

df_plus


Unnamed: 0,Nombre,Edad
0,Alice,25
1,Bob,30
2,Charlie,35


In [26]:
# Añadir una nueva columna 'Puntaje'
puntajes = [90, 85, 92]
df_plus['Puntaje'] = puntajes
df_plus

Unnamed: 0,Nombre,Edad,Puntaje
0,Alice,25,90
1,Bob,30,85
2,Charlie,35,92


*Usabdo el método 'assing()'*

El método assign() permite añadir una nueva columna o reemplazar una existente con una nueva Serie o columna calculada. Esto devuelve un nuevo DataFrame con la columna añadida.


por ejemplo:

In [27]:
df_Nplus = df_plus.assign(Posicion=[1, 2, 3], Genero=["F","M","M"], Nacionalidad=["Inglesa", "Canadience","Australiano"], Residencia=["PE","MEX","COL"], Nulos=[None, None, None])
df_Nplus


Unnamed: 0,Nombre,Edad,Puntaje,Posicion,Genero,Nacionalidad,Residencia,Nulos
0,Alice,25,90,1,F,Inglesa,PE,
1,Bob,30,85,2,M,Canadience,MEX,
2,Charlie,35,92,3,M,Australiano,COL,


**¿Cuándo debériamos eliminar columnas?**

*Cuando tengamos caracteristicas irrelevantes en nuestro data set*

Si una columna no ayuada a responder las preguntas objetivo de tu análisis o modelo, es una buena práctica eliminarla para reducir el ruido y simplificar el DataFrame.

*Cuando contengan datos confidenciales*

Si una columna contiene información sensible o confidencial que no se necesita para el análisis, eliminarla es importante para la privacidad de los datos.


*Cuando tengamos un dataset muy complejo o extenso*

En ocasiones, eliminar columnas puede reducir la complejidad y el tamaño del DataFrame, lo que facilita la manipulación y el análisis de los datos.

*Cuando tengamos que manejar valores nulos*

Si una columna tiene una cantidad significativa de valores nulos que no pueden ser llenados o que no son útiles, eliminar la columna puede ser una opción.

Eliminar columnas debe ser una decisión bien pensada pues corremos el riesgo de eliminar datos potencialmente valiosos para nuestro análisis.

**¿Cómo eliminamos columnas en un Pandas DataFrame?**

Al igual que añadir columnas, eliminarlas es algo muy sencillo de hacer en pandas y está librería nos ofrece más de una forma de alcanzar este objetivo.

*Usando el operador del*

Puedes eliminar una columna utilizando el operador del. Esto modifica el DataFrame existente eliminando permanentemente la columna especificada.

In [28]:
#usaremos los datos del ejemplo anterior

del df_Nplus['Edad']

df_Nplus


Unnamed: 0,Nombre,Puntaje,Posicion,Genero,Nacionalidad,Residencia,Nulos
0,Alice,90,1,F,Inglesa,PE,
1,Bob,85,2,M,Canadience,MEX,
2,Charlie,92,3,M,Australiano,COL,


*Usando el método drop*

El método drop() se utiliza para eliminar filas o columnas de un DataFrame. Puedes especificar el nombre de la columna que deseas eliminar y utilizar el argumento axis=1 para indicar que se trata de una columna.

In [29]:
df_Nplus = df_Nplus.drop('Residencia', axis=1)
df_Nplus


Unnamed: 0,Nombre,Puntaje,Posicion,Genero,Nacionalidad,Nulos
0,Alice,90,1,F,Inglesa,
1,Bob,85,2,M,Canadience,
2,Charlie,92,3,M,Australiano,


*Usando el método pop*

El método pop() permite eliminar y recuperar una columna de un DataFrame en un solo paso. La columna se elimina del DataFrame original y se devuelve como una Serie.



In [30]:
columna_eliminada = df_Nplus.pop('Genero')

df_Nplus


Unnamed: 0,Nombre,Puntaje,Posicion,Nacionalidad,Nulos
0,Alice,90,1,Inglesa,
1,Bob,85,2,Canadience,
2,Charlie,92,3,Australiano,


In [31]:
print(columna_eliminada)

0    F
1    M
2    M
Name: Genero, dtype: object


*Usando el método drop sin asignación*

Puedes eliminar una columna utilizando el método drop() sin asignar el resultado a un nuevo DataFrame. Esto modificará el DataFrame original de forma permanente.

Debemos ser cuidadosos al usar este metodo, pues elimina los datos de la fuente original por lo que no pueden ser recuperados, aunque se recarge las fuentes o celdas. Procura que los datos eliminados por este metodo sean datos que no volverás a utilizar.

También puedes crear una copia de tus data set originales al inicio de tus proyectos para tener un respaldo disponible en caso de errores

In [32]:
df_Nplus.drop('Nulos', axis=1, inplace=True)

df_Nplus


Unnamed: 0,Nombre,Puntaje,Posicion,Nacionalidad
0,Alice,90,1,Inglesa
1,Bob,85,2,Canadience
2,Charlie,92,3,Australiano


## Ejercicio 1

Crea un DataFrame con datos de estudiantes que incluye las columnas Nombre y Edad. Luego, añade una nueva columna llamada Promedio con las calificaciones promedio de los estudiantes.

### Respuesta

In [34]:
alumnos = {
    "Nombre": ["Goku", "Vegueta", "Trunks"],
    "Edad": [45, 50, 25]
}

In [35]:
df_alumnos = pd.DataFrame(alumnos)
df_alumnos

Unnamed: 0,Nombre,Edad
0,Goku,45
1,Vegueta,50
2,Trunks,25


In [36]:
df_alumnos = df_alumnos.assign(Promedio=[9.0, 9.5,8.8])
df_alumnos

Unnamed: 0,Nombre,Edad,Promedio
0,Goku,45,9.0
1,Vegueta,50,9.5
2,Trunks,25,8.8


## Ejercicio 2

Supongamos que tienes un DataFrame con datos de ventas que incluye las columnas Producto, Cantidad, Precio y Total. Elimina la columna Total ya que no es necesaria para tu análisis.

### Respuesta

In [37]:
ventas_fruteria = {
    "Producto":["Manzana","Pera", "Aguacate"],
    "Cantidad":[2, 4,8],
    "Precio":[5, 3, 10],
    "Total": [10,12, 80]
}

In [38]:
df_frutas_venidas = pd.DataFrame(ventas_fruteria)
df_frutas_venidas

Unnamed: 0,Producto,Cantidad,Precio,Total
0,Manzana,2,5,10
1,Pera,4,3,12
2,Aguacate,8,10,80


In [39]:
del df_frutas_venidas['Total']
df_frutas_venidas

Unnamed: 0,Producto,Cantidad,Precio
0,Manzana,2,5
1,Pera,4,3
2,Aguacate,8,10


## Ejercicio 3

Crea un DataFrame con datos de empleados que incluye las columnas Nombre, Salario y Horas_Trabajadas. Añade una nueva columna llamada Ingresos_Anuales que calcule el ingreso anual de cada empleado multiplicando el salario por las horas trabajadas.

### Respuesta

In [3]:
empleados = {
    "Nombre": ["Homero", "Bart", "March", "Lisa"],
    "Salario_hora": [25,28,24,29],
    "Horas_trabajadas": [200, 190, 160, 180]
}

In [4]:
df_nomina = pd.DataFrame(empleados)
df_nomina

Unnamed: 0,Nombre,Salario_hora,Horas_trabajadas
0,Homero,25,200
1,Bart,28,190
2,March,24,160
3,Lisa,29,180


In [14]:
df_nomina = df_nomina.assign(Ingresos=df_nomina["Horas_trabajadas"]*df_nomina["Salario_hora"])
df_nomina

Unnamed: 0,Nombre,Salario_hora,Horas_trabajadas,Ingresos
0,Homero,25,200,5000
1,Bart,28,190,5320
2,March,24,160,3840
3,Lisa,29,180,5220


## Modificar valores

Al momento de analizar datos es común que los valores dentro de nuestros data set debán ser modificados con la finalidad de tener datos más limpios y adecuados para nuestros análisis, ya que los datos limpios son esenciales para obtener resultados precisos en análisis posteriores.

Además nuestros datos pueden requerir transformaciones para que sean más adecuados para el modelado. Esto puede incluir la *conversión de tipos de datos, normalización, escalado y la creación de nuevas características derivadas*.

Debes tener en cuenta que en el día a día de tu trabajo como data science tendrás la necesidad de personalizar tus DataFrames para adaptarlos a necesidades específicas de tus análisis. Esto puede incluir la adición de nuevas columnas, la eliminación de columnas innecesarias y la renombración de columnas para que los datos sean más comprensibles y relevantes. Sin mencionar que en muchos casos, deberás  realizar cálculos y agregaciones en los datos para obtener información valiosa. La modificación de datos te permitirá realizar estos cálculos y resúmenes, lo que puede incluir la creación de columnas calculadas, la agregación de datos por grupos y la obtención de estadísticas resumidas.

De nuevo; Pandas es una herramienta potente que no ayudá a realizar esta tarea de forma fácil, rápida y eficicente.

## ¿Cómo modificar datos con Pandas?

La modificación de datos con Pandas implica diversas operaciones que te permiten limpiar, transformar y personalizar tus datos. A continuación exploraremos una forma de como abordar esta tarea.

*Obviaremos los pasos de importación de la libreria y carga de datos a trabajar.*

**1.- Limpiar tu dataset**


*Eliminar filas con valores nulos*

La eliminación de filas con valores nulos es útil para garantizar que tus análisis se basen en datos completos. Para ayudarnos con está acción Pandas nos proporciona el método **dropna()** para eliminar filas con valores nulos.

In [None]:
#No ejecutes está celda

# Eliminar filas con valores nulos
df = df.dropna()
 """
 Dónde:

 df           --Es el nombre del data frame que contiene nuestros datos--
 .dropna()    --Es el método que eliminará las filas que contengan valores nulos--

 """

*Eliminar duplicados*

La eliminación de duplicados es útil para eliminar registros repetidos en tus datos, lo que puede mejorar la precisión de tus análisis.

In [None]:
#No ejecutar esta celda

# Eliminar filas duplicadas
df = df.drop_duplicates()


*Corregir errores de datos*

Puedes utilizar operaciones de indexación y asignación para corregir valores incorrectos o inconsistentes en tus datos.

In [None]:
#No ejecutes esta celda

# Reemplazar un valor incorrecto
df.loc[df['Columna'] == valor_incorrecto, 'Columna'] = valor_corregido


En el ejemplo usamos *loc* que es loc es un método utilizado en Pandas para la selección y filtrado de datos en un DataFrame basado en etiquetas. Se utiliza para acceder a filas y columnas específicas del DataFrame mediante etiquetas, en lugar de índices enteros. loc es especialmente útil cuando deseas realizar selecciones basadas en etiquetas de filas o columnas en lugar de sus posiciones numéricas.

*Si deseas profundizar en este metodo puedes dirigirte al directorio Metodos_pandas*

**Transformación de datos**

*Cambiar tipos de datos*

Cambiar tipos de datos es útil para asegurarte de que tus datos se almacenen en el tipo correcto. Utiliza el método astype().

In [None]:
#No ejecutar esta celda

# Cambiar el tipo de datos de una columna
df['Columna'] = df['Columna'].astype(int)


*Realizar calculos*

Realizar cálculos es esencial para crear nuevas columnas calculadas a partir de los datos existentes.

In [None]:
#No ejecutar está celda

# Crear una nueva columna calculada
df['Nueva_Columna'] = df['Columna1'] * df['Columna2']


*Normalizar o escalar datos númericos*

La normalización y el escalado son útiles en el procesamiento de datos numéricos para que tengan la misma escala, lo que facilita la comparación de variables.

Esto se refiere a ajustar los valores de una variable numérica para que estén en una escala específica o sigan una distribución particular.

*Codificar categorias*

La codificación de variables categóricas es útil para convertir variables categóricas en valores numéricos que los algoritmos de aprendizaje automático pueden comprender.

In [None]:
#No ejecutar esta celda

# Codificar variables categóricas usando get_dummies
df = pd.get_dummies(df, columns=['Variable_Categórica'])


**Agregación y resumen de datos**

Puedes agregar y resumir datos utilizando funciones como groupby() para agrupar datos y luego aplicar funciones de agregación como sum(), mean(), max(), etc.

In [None]:
# Calcular el promedio de ventas por producto
promedio_ventas = df.groupby('Producto')['Ventas'].mean()


El ejemplo muestra una agregación por grupo que es útil porque permite resumir los datos y obtener estadísticas útiles, como promedios, sumas y conteos para cada categoría, lo que facilita el análisis.

### Respuesta