<a href="https://colab.research.google.com/github/AnaSantillanal246102/DataScience/blob/main/S7_PROCESAMIENTO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ejemplo 01: Operaciones aritméticas con series**

In [None]:
import pandas as pd

# Crear una serie de ejemplo
serie_1 = pd.Series([1, 2, 3, 4, 5])

# Sumar un escalar
print(serie_1 + 10)

# Multiplicar por un escalar
print(serie_1 * 10)

# Sumar serie con serie
print(serie_1 + serie_1)

# Multiplicar serie con serie
print(serie_1 * serie_1)

Funciones vectorizadas

In [None]:
# Usar funciones vectorizadas para operaciones matemáticas
print(serie_1.add(10))  # Equivalente a serie_1 + 10
print(serie_1.mul(10))  # Equivalente a serie_1 * 10
print(serie_1.pow(2))   # Elevar al cuadrado cada elemento

Funciones de agregación

In [None]:
# Ejemplos de funciones de agregación
print(serie_1.sum())   # Suma total de los elementos de la serie
print(serie_1.mean())  # Promedio de los elementos de la serie
print(serie_1.min())   # Valor mínimo de la serie
print(serie_1.max())   # Valor máximo de la serie
print(serie_1.count()) # Cuenta los elementos no nulos en la serie

# Ejemplo 02: Operaciones aritméticas con DataFrames

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo, con valores aleatorios
df = pd.DataFrame({
    'A': np.random.randint(1, 10, 5),
    'B': np.random.randint(1, 10, 5)
})

# Sumar un número a cada elemento del DataFrame
print(df + 10)

# Multiplicar cada elemento por un escalar
print(df * 10)

Funciones vectorizadas en dataframes

In [None]:
# Sumar dos DataFrames
print(df + df)

# Elevar al cuadrado cada elemento
print(df.pow(2))

Funciones de agregación en dataframes

In [None]:
# Sumar todos los elementos de cada columna
print(df.sum())

# Calcular el promedio de cada columna
print(df.mean())

# Obtener el valor mínimo y máximo de cada columna
print(df.min())
print(df.max())

# Ejemplo 03: Limpieza de Datos

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame para un restaurante con valores faltantes
data = {
    'Orden': [101, 102, 103, 104, 105, 106, 107, 108],
    'Platillo': ['Tacos', 'Burrito', np.nan, 'Enchiladas', 'Tacos', 'Quesadilla', 'Tacos', 'Burrito'],
    'Precio': [10, 12, 11, 13, 10, 9, np.nan, 12],
    'Categoría': ['Comida rápida', 'Comida rápida', 'Comida rápida', 'Comida tradicional', 'Comida rápida', 'Comida rápida', 'Comida rápida', 'Comida rápida'],
    'Mesero': ['Juan', 'Ana', 'Pedro', 'Ana', np.nan, 'Juan', 'Pedro', 'Ana'],
    'Fecha': ['2022-07-01', '2022-07-01', '2022-07-02', np.nan, '2022-07-02', '2022-07-03', '2022-07-03', '2022-07-04']
}

df = pd.DataFrame(data)

# Mostrar el DataFrame, recuerda al no usar print, se muestra de forma más amigable, esto es aplicable para todos los ejemplos.
df.head(10)

In [None]:
# Contar NaNs en cada columna
nan_por_columna = df.isna().sum()
print(f"NaNs por columna:\n{nan_por_columna}\n")

print("-"*20)

# Contar NaNs en cada fila
nan_por_fila = df.isna().sum(axis=1)
print(f"NaNs por fila:\n{nan_por_fila}")

Eliminación de valores faltantes

In [None]:
# Crear una copia del DataFrame para manipulaciones seguras
df_clean = df.copy()
df_clean.head()

In [None]:
# Eliminar filas donde cualquier valor es NaN
df_clean.dropna(axis=0, how='any')

# Eliminar columnas donde cualquier valor es NaN
df_clean.dropna(axis=1, how='any')

In [None]:
# Eliminar filas donde las columnas 'Platillo' o 'Precio' contienen NaN
df_clean.dropna(subset=['Platillo', 'Precio'], axis=0, how='any')

Limpieza avanzada

In [None]:
# Reemplazar NaN en 'Precio' con la mediana
df_clean.fillna({'Precio': df_clean['Precio'].median()}, inplace=True)

# Reemplazar NaN en 'Platillo' con 'Desconocido'
df_clean.fillna({'Platillo': 'Desconocido'}, inplace=True)

# Reemplazar NaN en 'Mesero' con 'Desconocido'
df_clean.fillna({'Mesero': 'Desconocido'}, inplace=True)

# Reemplazar NaN en 'Fecha' con la fecha actual
df_clean.fillna({'Fecha': pd.Timestamp.now().date()}, inplace=True)

# Mostrar el DataFrame actualizado
print(df_clean)


# Ejemplo 04: Manipulación, reindexado y renombrado de columnas

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame con datos y columnas más complejas
df = pd.DataFrame({
    'Nombre Completo': ['Juan Martínez', 'María Gómez', np.nan, 'Ana Torres', 'Sofía Núñez', np.nan, "Lena Marie", np.nan],
    'Edad al Cierre del Año': [28, 34, 19, np.nan, 45, np.nan, 1, np.nan],
    'Ciudad de Residencia Actual': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Bilbao', np.nan, "Coahuila", np.nan],
    'Ingresos Anuales Estimados': [1200, 1500, 900, 1100, np.nan, np.nan, 1200, np.nan],
    'Área de Vivienda m²': [np.nan, 45, 70, 80, 60, np.nan, 120, np.nan],
    'Año de Construcción': [1990, 1985, np.nan, 2000, 2010, np.nan, np.nan, np.nan],
    'Reseña del Cliente': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]
})

# Convertir nombres de columnas a snake_case
df.columns = df.columns.str.lower().str.replace(' ', '_').str.replace('(', '').str.replace(')', '')

# Mostrar el DataFrame inicial
df.head(10)

Unnamed: 0,nombre_completo,edad_al_cierre_del_año,ciudad_de_residencia_actual,ingresos_anuales_estimados,área_de_vivienda_m²,año_de_construcción,reseña_del_cliente
0,Juan Martínez,28.0,Madrid,1200.0,,1990.0,
1,María Gómez,34.0,Barcelona,1500.0,45.0,1985.0,
2,,19.0,Sevilla,900.0,70.0,,
3,Ana Torres,,Valencia,1100.0,80.0,2000.0,
4,Sofía Núñez,45.0,Bilbao,,60.0,2010.0,
5,,,,,,,
6,Lena Marie,1.0,Coahuila,1200.0,120.0,,
7,,,,,,,


In [None]:
# Eliminar columnas que no aportan información relevante
df.drop(columns=['área_de_vivienda_m²', 'año_de_construcción', 'reseña_del_cliente'], inplace=True)
df.head(10)

Unnamed: 0,nombre_completo,edad_al_cierre_del_año,ciudad_de_residencia_actual,ingresos_anuales_estimados
0,Juan Martínez,28.0,Madrid,1200.0
1,María Gómez,34.0,Barcelona,1500.0
2,,19.0,Sevilla,900.0
3,Ana Torres,,Valencia,1100.0
4,Sofía Núñez,45.0,Bilbao,
5,,,,
6,Lena Marie,1.0,Coahuila,1200.0
7,,,,


In [None]:
# Eliminar filas con valores faltantes
df.dropna(axis=0, how='any', inplace=True)
df.head(10)

Unnamed: 0,nombre_completo,edad_al_cierre_del_año,ciudad_de_residencia_actual,ingresos_anuales_estimados
0,Juan Martínez,28.0,Madrid,1200.0
1,María Gómez,34.0,Barcelona,1500.0
6,Lena Marie,1.0,Coahuila,1200.0


In [None]:
# Mostrar el DataFrame antes de reindexar
df.head()

Unnamed: 0,nombre_completo,edad_al_cierre_del_año,ciudad_de_residencia_actual,ingresos_anuales_estimados
0,Juan Martínez,28.0,Madrid,1200.0
1,María Gómez,34.0,Barcelona,1500.0
6,Lena Marie,1.0,Coahuila,1200.0


In [None]:
# Reindexar el DataFrame
df.reset_index(drop=False, inplace=False)  # Mostrar cómo queda el índice sin eliminar el índice anterior

Unnamed: 0,index,nombre_completo,edad_al_cierre_del_año,ciudad_de_residencia_actual,ingresos_anuales_estimados
0,0,Juan Martínez,28.0,Madrid,1200.0
1,1,María Gómez,34.0,Barcelona,1500.0
2,6,Lena Marie,1.0,Coahuila,1200.0


In [None]:
# Aplicamos el reindexado definitivo
df.reset_index(drop=True, inplace=True) # drop=True elimina la columna de índices anteriores, inplace=True modifica el DataFrame original
df.head()

Unnamed: 0,nombre_completo,edad_al_cierre_del_año,ciudad_de_residencia_actual,ingresos_anuales_estimados
0,Juan Martínez,28.0,Madrid,1200.0
1,María Gómez,34.0,Barcelona,1500.0
2,Lena Marie,1.0,Coahuila,1200.0


In [None]:
# Renombrar columnas
columnas = {
    'nombre_completo': 'nombre',
    'edad_al_cierre_del_año': 'edad',
    'ciudad_de_residencia_actual': 'ciudad',
    'ingresos_anuales_estimados': 'ingresos'
}

df.rename(columns=columnas, inplace=True)
df.head()

Unnamed: 0,nombre,edad,ciudad,ingresos
0,Juan Martínez,28.0,Madrid,1200.0
1,María Gómez,34.0,Barcelona,1500.0
2,Lena Marie,1.0,Coahuila,1200.0


#Reto 1

Realiza los siguientes pasos para explorar y manipular los datos:

📊 Calcular la suma total de las calificaciones de cada estudiante.

Puedes usar un filtro para obtener las calificaciones de cada estudiante: df[df['Estudiante'] == 'NOMBRE']['Calificación'].FUNCION()
Este proceso lo veremos mas a detalle en la siguiente sesión.
🔢 Calcular el promedio de las calificaciones de cada estudiante.

📏 Determinar la calificación más alta y más baja registrada en el DataFrame.

📄 Mostrar los resultados, e imprime un mensaje similar:

✉️ Suma y promedio de calificaciones de Ana: 253 y 84.33
✉️ Suma y promedio de calificaciones de Luis: 265 y 88.33
✉️ Suma y promedio de calificaciones de María: 263 y 87.67
✉️ Calificación más alta en el DataFrame: 92
✉️ Calificación más baja en el DataFrame: 78

In [None]:
import pandas as pd
# Ejemplo de dataframe con calificaciones
data = {
    'Estudiante': ['Ana', 'Ana', 'Ana', 'Luis', 'Luis', 'Luis', 'María', 'María', 'María'],
    'Materia': ['Matemáticas', 'Historia', 'Ciencias', 'Matemáticas', 'Historia', 'Ciencias', 'Matemáticas', 'Historia', 'Ciencias'],
    'Calificación': [85, 90, 78, 88, 85, 92, 90, 88, 85]
}
df = pd.DataFrame(data)

for estudiante in df['Estudiante'].unique():
    suma_calificaciones = df[df['Estudiante'] == estudiante]['Calificación'].sum()
    promedio_calificaciones = df[df['Estudiante'] == estudiante]['Calificación'].mean()
    print(f"Suma y promedio de calificaciones de {estudiante}: {suma_calificaciones} y {promedio_calificaciones}")

calificaciones_maximas = df['Calificación'].max()
calificaciones_minimas = df['Calificación'].min()
print(f"Calificación más alta en el DataFrame: {calificaciones_maximas}")
print(f"Calificación más baja en el DataFrame: {calificaciones_minimas}")

Suma y promedio de calificaciones de Ana: 253 y 84.33333333333333
Suma y promedio de calificaciones de Luis: 265 y 88.33333333333333
Suma y promedio de calificaciones de María: 263 y 87.66666666666667
Calificación más alta en el DataFrame: 92
Calificación más baja en el DataFrame: 78


#Reto 2
Instrucciones

Realiza los siguientes pasos para explorar y manipular los datos:

📊 Imprime el numero de NaNs, para filas y columnas:

Conteo de valores NaN por columna:
...
--------------------
Conteo de valores NaN por renglon:
...
🗑️ Eliminar filas incompletas:

Eliminar filas donde 'Fecha_Encuesta'o 'Puntuacion_Satisfaccion' contienen por lo menos un valor nulo.
Usa el método .copy() para manipulaciones seguras.
📝 Manejo de comentarios faltantes:

Reemplaza los valores nulos en la columna 'Comentarios' con 'Sin comentarios'.
🔄 Reindexar el dataframe:

Reorganiza los índices después de eliminar filas.
✏️ Estandarización de nombres de columnas:

Convierte todos los nombres de columnas a minúsculas y reemplaza los espacios por guiones bajos para una manipulación más fácil.
🔤 Renombrar columnas específicas:

Cambia el nombre de la columna 'puntuacion_satisfaccion' a 'calificacion' para reflejar mejor los datos.
🖨️ Mostrar el DataFrame Actualizado:

Imprime el DataFrame final para verificar los cambios realizados.

In [None]:
import pandas as pd
import numpy as np
# Simular datos de una encuesta de satisfacción de clientes de comercio electrónico
data = {
    'ID_Cliente': [101, 102, 103, 104, 105, 106],
    'Fecha_Encuesta': ['2023-01-01', '2023-01-02', np.nan, '2023-01-04', '2023-01-05', '2023-01-06'],
    'Puntuacion_Satisfaccion': [5, 4, 3, np.nan, 5, 4],  # Escala de 1 a 5
    'Comentarios': ['Todo excelente', np.nan, 'Buen servicio', 'Regular', np.nan, 'Muy bueno']
}
df = pd.DataFrame(data)
print(f'Filas: {df.isna().sum()}\n')
print(f'Columnas: {df.isna().sum(axis=1)}\n')

Filas: ID_Cliente                 0
Fecha_Encuesta             1
Puntuacion_Satisfaccion    1
Comentarios                2
dtype: int64

Columnas: 0    0
1    1
2    1
3    1
4    1
5    0
dtype: int64



In [None]:
df_clean=df.copy().dropna(subset=['Fecha_Encuesta', 'Puntuacion_Satisfaccion'], axis=0, how='any')
df_clean['Comentarios'].fillna('Sin comentarios', inplace=True)
df_clean.reset_index(drop=True, inplace=True)
df_clean.columns = df_clean.columns.str.lower().str.replace(' ', '_')
df_clean.rename(columns={'Puntuacion_Satisfaccion': 'Calificacion'}, inplace=True)
df_clean.head(10)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_clean['Comentarios'].fillna('Sin comentarios', inplace=True)


Unnamed: 0,id_cliente,fecha_encuesta,puntuacion_satisfaccion,comentarios
0,101,2023-01-01,5.0,Todo excelente
1,102,2023-01-02,4.0,Sin comentarios
2,105,2023-01-05,5.0,Sin comentarios
3,106,2023-01-06,4.0,Muy bueno
