### *Necesarios*

In [1]:
import pandas as pd 

# **INTRODUCCIÓN A LA MANIPULACIÓN DE DATOS**

En ciencia de datos, la manipulación de datos hace referencia al proceso de transformar, limpiar y preparar los datos para su análisis posterior. Es una etapa fundamental en el ciclo de vida de un proyecto de ciencia de datos y puede representar una parte significativa del trabajo de un científico de datos. La manipulación de datos se realiza con el objetivo de convertir datos crudos o desorganizados en un formato adecuado y útil para la toma de decisiones, el modelado, la visualización y otros análisis.

Las tareas más comunes erelacionadas con la manipulación de datos en ciencia de datos suelen ser:

*   La limpieza de los datos
*   La transformación de datos
*   La selección y flitrado de datos
*   La agrgación y resumen de datos
*   La unión y combinación de datos
*   El manejo de valores nulos
*   Y la generación de nuevas caracteristicas



La manipulación de datos es un proceso iterativo y puede requerir una combinación de herramientas y bibliotecas, como Pandas en Python, SQL para bases de datos, y otras bibliotecas específicas para tareas de limpieza y transformación de datos. La calidad de los datos y la eficiencia en su manipulación son factores críticos para el éxito de un proyecto de ciencia de datos, ya que los resultados y las conclusiones se basan en gran medida en los datos subyacentes.

Pandas es una poderosa libreria ampliamente usada en el mundo de la ciencia de datos ya que cuenta con multiples caracteristicas de gran utilidad en el contexto de la ciencia de datos como proporcionar estructuras de datos flexibles y eficientes, como DataFrames y Series, que permiten la manipulación y análisis de datos de manera más eficaz. Estas estructuras permiten cargar, limpiar, transformar y analizar datos de manera intuitiva.

En este notebook exploraremos la forma en que podemos usar Pandas para filtrar datos, añadir y eleminar columnas y modificar valores.

# Filtrar datos 

Filtrar datos en Pandas es una operación esencial que te permite seleccionar un subconjunto de filas o columnas de un DataFrame en función de condiciones específicas. Esto es necesario en varias situaciones durante el análisis de datos por varias razones, por ejemplo:

**Enfocarse en los datos que de verdad importan**

A menudo, tus conjuntos de datos pueden contener una gran cantidad de información que no es relevante para tu análisis actual. Filtrar datos te permite centrarte en las partes de los datos que son importantes para tu pregunta o análisis.

**Limpiar tu conjunto de datos**

En ocasiones, es necesario filtrar datos para eliminar observaciones con valores nulos o incorrectos que pueden afectar tus análisis y resultados.

**Segmentar tus datos**

Puedes querer dividir tus datos en grupos específicos para compararlos o analizarlos por separado. Filtrar te permite crear subconjuntos de datos para cada grupo y tener solo aquellas variables cuya relación entre si te ayuden a responder preguntas importantes para tu análisis.

**Extraer información especifica**
Puedes buscar información específica en tus datos utilizando filtros. Por ejemplo, buscar todos los clientes que cumplan ciertos criterios o encontrar registros con características específicas.

## ¿Cómo filtrar datos en Pandas paso a paso?

Supongamos que tenemos un DataFrame llamado df con datos de empleados y queremos filtrar empleados que cumplan con ciertas condiciones, como empleados que ganan más de $50,000 al año y tienen más de 30 años.

In [None]:
#NO EJECUTAR EL CÓDIGO

#import pandas as pd  #Lo primero para trabajar con Pandas es realizar la importación de la libreria a nuestro notebook o nuetro proyecto python (según sea el caso), en este caso hemos comentado la línea correspondiente a la importación ya que está se realiza en la parte superior del notebook

# Ahora bien. Supongamos que ya tenemos un DataFrame df con datos de empleados

# Definir una condición de filtro
condicion = (df['Salario'] > 50000) & (df['Edad'] > 30)

"""

Donde: 
condicion    --Es la variable que almacenará el filtro--
df           --Hace referencia al nombre del data frame de donde extraeremos la información--
['Salario']  --Es el nombre de una de las columnas que contiene datos relevantes para nuestra consulta--
> 50000      --Es la condición que nos ayuda a selecionar datos de la columna 'Salario'--
&            --Es el operador lógico que nos ayuda a unir las dos condiciones del filtro--
['Edad']     --Es el nombre de la otra columna que contiene datos relevantes para nuestra consulta--
> 30         --Es la segunda condición que nos ayuda a seleccionar datos--



Podemos leer el filtro así:

Primera parte:

  condicion =

    En la variable condicion guarda como valor, el resultado de todo lo que se esciba despues del signo de igualdad (=)



Segunda parte:

  (df['Salario'] > 50000)

    (df['Salario']
      Del data frame df ve a la columna 'Salario',...

    > 50000)
      trae los valores que sean mayores a 50000...



Tercera parte: 

  &
    y además de la condición anterior(donde solo nos trae las series donde los valores de la columna  'Salario' son mayores a 50000)...



Cuarta parte:

  (df['Edad'] > 30)

    (df['Edad'] 
      del data frame df ve a la columna 'Edad'...

    > 30)
      trae los valores que sean mayores a 30

 
  
El filtro queda asignado a la variable 'condicion' 
"""

# Aplicar el filtro y crear un nuevo DataFrame con las filas que cumplan la condición
empleados_filtrados = df[condicion]


## Ejercicio 1

Crea un DataFrame con datos de ventas, donde algunas filas tienen valores nulos en la columna Ventas. Filtra las filas que no tienen valores nulos en la columna Ventas.

### Respuesta

In [34]:
ventas_2023 = {
    "Producto": ["cartera","zapatos_t6","zapatos_t7","zapatos_t8","zapatos_t9","camisetas_s","camisetas_m","camisetas_xl","shorts_xl","short_m", "shorts_s"],
    "unidades_vendidas": [20,50,60,90,None,120,45,24,None,None,78],
    "disponible_stock": [True,True, True,False,None, False,True,None,False,None, False]
}

In [35]:
ventas_df = pd.DataFrame(ventas_2023)
ventas_df

Unnamed: 0,Producto,unidades_vendidas,disponible_stock
0,cartera,20.0,True
1,zapatos_t6,50.0,True
2,zapatos_t7,60.0,True
3,zapatos_t8,90.0,False
4,zapatos_t9,,
5,camisetas_s,120.0,False
6,camisetas_m,45.0,True
7,camisetas_xl,24.0,
8,shorts_xl,,False
9,short_m,,


In [48]:
data_clean = ventas_df.dropna(subset=['unidades_vendidas',"disponible_stock"])
data_clean

Unnamed: 0,Producto,unidades_vendidas,disponible_stock
0,cartera,20.0,True
1,zapatos_t6,50.0,True
2,zapatos_t7,60.0,True
3,zapatos_t8,90.0,False
5,camisetas_s,120.0,False
6,camisetas_m,45.0,True
10,shorts_s,78.0,False


## Ejercicio 2

Crea un DataFrame con datos de estudiantes que incluyen las columnas Nombre, Edad y Género. Luego, filtra los estudiantes que son de género femenino.

### Respuesta

In [30]:
estudiantes = {
    "Nombre": ["Goku", "Gohan", "Bulma", "Chaos", "Milk", "Krillim"],
    "Edad": [50,35,60,52,50,52],
    "Genero": ["m","m","f","m","f","m"]
}

In [31]:
df_students = pd.DataFrame(estudiantes)
df_students

Unnamed: 0,Nombre,Edad,Genero
0,Goku,50,m
1,Gohan,35,m
2,Bulma,60,f
3,Chaos,52,m
4,Milk,50,f
5,Krillim,52,m


## Ejercicio 3

Supongamos que tienes un DataFrame con datos de ventas que incluye las columnas Producto, Ventas y Fecha. Crea un DataFrame y filtra las ventas de productos 'A' que fueron mayores de $1000 y ocurrieron en el año 2023.

### Respuesta

In [51]:
sales = {
    "product": ["camisas", "pantalones", "sombreros","suaters", "libros", "mesas", "sillas", "blusas"],
    "sales_m": [350, 2500, 120,450,500,650,100,900],
    "date": ["2022-01-12", "2023-03-03","2021-01-04", "2022-05-06", "2023-08-08", "2021-09-09", "2020-01-06", "2022-04-04"]
}

In [52]:
df_sales = pd.DataFrame(sales)
df_sales

Unnamed: 0,product,sales_m,date
0,camisas,350,2022-01-12
1,pantalones,2500,2023-03-03
2,sombreros,120,2021-01-04
3,suaters,450,2022-05-06
4,libros,500,2023-08-08
5,mesas,650,2021-09-09
6,sillas,100,2020-01-06
7,blusas,900,2022-04-04


In [54]:
v_2023 = (df_sales['sales_m'] > 1000) & (df_sales['date'].str.startswith("2023"))
v_2023 = df_sales[v_2023]
v_2023

Unnamed: 0,product,sales_m,date
1,pantalones,2500,2023-03-03


## Añadir y eliminar columnas

### Respuesta

## Modificar valores

### Respuesta