 Ejercicio: Manipulación de Datos

 Descripción del ejercicio:
Desarrolle códigos para ejecutar las siguientes tareas:
1. Cargue en la variable `df1` el conjunto de datos desde un archivo Excel.
2. Cargue en la variable `df2` el conjunto de datos desde un archivo CSV.
3. Cargue los datos Breast Cancer Wisconsin Dataset en un dataframe de pandas asignado a la variable `df3`.
4. Construya un Panel con los tres (3) dataframes cargados anteriormente.
5. Programe una función que extraiga todas las listas de los encabezados de columnas que se encuentran en un Panel.
6. Programe una función que imprima la cantidad de elementos que tienen las bases de datos en un Panel.
7. Filtre el dataframe `df1` para obtener las muestras de la empresa TAC y determine cuántos elementos tiene dicho filtro.
8. Determine cuántos elementos nulos hay en cada una de las columnas del dataframe `df2`.

 Solución:

 Tareas 1 a 8: Implementar códigos para realizar cada tarea.


 Revisión Teórica: Estructuras de Datos y DataFrames

En el contexto de la ciencia de datos y la programación, las estructuras de datos juegan un papel crucial en la manipulación y organización eficiente de los datos. Entre las estructuras de datos más utilizadas se encuentran las Series, los DataFrames y los Paneles. A continuación, se detallan las definiciones de cada una de estas estructuras:

 Series
Una Serie es una estructura de datos unidimensional similar a un array en NumPy, pero con la capacidad adicional de tener etiquetas de índice asociadas a cada elemento. Esto significa que cada elemento de una Serie tiene una etiqueta de índice única que permite un acceso más intuitivo y eficiente a los datos. Las Series se utilizan comúnmente para representar una sola columna de datos en un conjunto de datos más grande.

Por ejemplo, supongamos que tenemos una Serie que almacena la cantidad de ventas diarias de un producto durante una semana. La Serie podría tener una etiqueta de índice para cada día de la semana (por ejemplo, lunes, martes, miércoles, etc.) y el valor correspondiente sería la cantidad de ventas para ese día.

 DataFrame
Un DataFrame es una estructura de datos bidimensional que se asemeja a una tabla de base de datos o una hoja de cálculo de Excel. Consiste en filas y columnas, donde cada columna puede contener diferentes tipos de datos. Los DataFrames son extremadamente versátiles y se utilizan ampliamente para almacenar y manipular datos tabulares.

Por ejemplo, consideremos un DataFrame que almacena información sobre empleados en una empresa. Cada fila podría representar a un empleado individual, y cada columna podría contener información como el nombre, el salario, la edad, el departamento, etc.

Panel
Un Panel es una estructura de datos tridimensional que puede considerarse como un contenedor de múltiples DataFrames. Similar a un DataFrame, un Panel consta de filas y columnas, pero también tiene una dimensión adicional que representa diferentes aspectos o instancias del conjunto de datos. Aunque los Paneles son menos comunes que las Series y los DataFrames, pueden ser útiles en situaciones donde se necesite trabajar con múltiples conjuntos de datos bidimensionales.

Por ejemplo, un Panel podría ser utilizado para almacenar datos de ventas de diferentes productos en diferentes regiones y períodos de tiempo. Cada DataFrame dentro del Panel representaría las ventas de un producto en una región específica durante un período de tiempo específico.

Las definiciones y ejemplos proporcionados están basados en los siguientes recursos:

- Galea, A. (2018). *Applied Data Science with Python and Jupyter: Use Powerful Industry-standard Tools to Unlock New, Actionable Insights From Your Data.* Packt Publishing. (pp. 22-28).
- Boschetti, A., & Massaron, L. (2016). *Python Data Science Essentials - Second Edition.* Packt Publishing. (pp. 63-78).
- Madhavan, S. (2015). *Mastering Python for Data Science: Explore the World of Data Science Through Python and Learn How to Make Sense of Data.* Packt Publishing. (pp. 7-18).
- Vargas, M. (2022). *Carga de datos en Python desde un archivo Excel.* UNAD. 



In [1]:
import pandas as pd

# Path of the Excel file
excel_path = r"C:\Users\AIO\Documents\UNAD PRIMER SEMESTRE\CURSOS\PROGRAMACIÓN PARA EL ANÁLISIS DE DATOS\Actividades\Unidad 1\actividad1\Anexo 1 - Base de Datos EXCEL.xlsx"

# Load the Excel file into a DataFrame
df1 = pd.read_excel(excel_path, header=1, index_col=0)

# Display the first few records of the DataFrame
print(df1.head())


                                                            Unnamed: 1  \
Las atenciones de emergencias/urgencias médicas...                 NaN   
NaN                                                                NaN   
NaN                                                            Empresa   
Características                                                    TAB   
Experiencia del conductor                           ≥ 30% Principiante   

                                                            Unnamed: 2  \
Las atenciones de emergencias/urgencias médicas...                 NaN   
NaN                                                                NaN   
NaN                                                                NaN   
Características                                                    TAC   
Experiencia del conductor                           ≥ 30% Principiante   

                                                            Unnamed: 3  \
Las atenciones de emergencias/urgenc

In [2]:
import pandas as pd

# Path of the CSV file
csv_path = r"C:\Users\AIO\Documents\UNAD PRIMER SEMESTRE\CURSOS\PROGRAMACIÓN PARA EL ANÁLISIS DE DATOS\Actividades\Unidad 1\actividad1\Anexo 2 - Base de Datos CSV.csv"

# Load the CSV file into a DataFrame
df2 = pd.read_csv(csv_path, sep=';', header=0)

# Display the first few records of the DataFrame
print(df2.head())


  longitude,"latitude","housing_median_age","total_rooms","total_bedrooms","population","households","median_income","median_house_value"
0  -122.050000,37.370000,27.000000,3885.000000,66...                                                                                     
1  -118.300000,34.260000,43.000000,1510.000000,31...                                                                                     
2  -117.810000,33.780000,27.000000,3589.000000,50...                                                                                     
3  -118.360000,33.820000,28.000000,67.000000,15.0...                                                                                     
4  -119.670000,,19.000000,1241.000000,244.000000,...                                                                                     


In [3]:
import pandas as pd
from sklearn.datasets import load_breast_cancer

# Load the Breast Cancer Wisconsin dataset
data = load_breast_cancer()

# Create a pandas DataFrame
df3 = pd.DataFrame(data.data, columns=data.feature_names)

# Display the first few records of the DataFrame
print(df3.head())


   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst radius  worst texture  worst perimeter  \
0           

In [5]:
# Diccionario que contiene los DataFrames
panel = {'df1': df1, 'df2': df2, 'df3': df3}



In [6]:
# Acceder al DataFrame df1
df1_from_panel = panel['df1']


In [7]:
# Iterar sobre el diccionario y mostrar los primeros registros de cada DataFrame
for df_name, df in panel.items():
    print(f"DataFrame: {df_name}")
    print(df.head())
    print()


DataFrame: df1
                                                            Unnamed: 1  \
Las atenciones de emergencias/urgencias médicas...                 NaN   
NaN                                                                NaN   
NaN                                                            Empresa   
Características                                                    TAB   
Experiencia del conductor                           ≥ 30% Principiante   

                                                            Unnamed: 2  \
Las atenciones de emergencias/urgencias médicas...                 NaN   
NaN                                                                NaN   
NaN                                                                NaN   
Características                                                    TAC   
Experiencia del conductor                           ≥ 30% Principiante   

                                                            Unnamed: 3  \
Las atenciones de eme

In [8]:
def extract_column_headers(panel):
    """
    Extracts column headers from all DataFrames in a Panel.

    Args:
    - panel: Panel containing DataFrames.

    Returns:
    - Dictionary where keys are DataFrame names and values are lists of column headers.
    """
    column_headers = {}  # Dictionary to store column headers

    # Iterate over DataFrames in the Panel
    for df_name, df in panel.items():
        # Extract column headers of the current DataFrame
        column_headers[df_name] = df.columns.tolist()

    return column_headers

# Extract column headers from the panel
column_headers = extract_column_headers(panel)

# Print the results
for df_name, headers in column_headers.items():
    print(f"DataFrame: {df_name}")
    print(headers)
    print()


DataFrame: df1
['Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']

DataFrame: df2
['longitude,"latitude","housing_median_age","total_rooms","total_bedrooms","population","households","median_income","median_house_value"']

DataFrame: df3
['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error', 'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points', 'worst symmetry', 'worst fractal dimension']



In [9]:
def print_dataframe_sizes(panel):
    """
    Prints the number of elements in each DataFrame in a Panel.

    Args:
    - panel: Panel containing DataFrames.
    """
    # Iterate over DataFrames in the Panel
    for df_name, df in panel.items():
        # Get the number of elements in the current DataFrame
        num_elements = df.size
        # Print the DataFrame name and number of elements
        print(f"DataFrame: {df_name}, Number of elements: {num_elements}")

# Use the function with the panel from the previous point
print_dataframe_sizes(panel)


DataFrame: df1, Number of elements: 145
DataFrame: df2, Number of elements: 3000
DataFrame: df3, Number of elements: 17070


In [13]:
# Filtrar el DataFrame df1 para obtener las muestras de la empresa TAC
df1_tac = df1[df1['Unnamed: 2'] == 'TAC']

# Determinar cuántos elementos tiene el filtro
num_elements_tac = df1_tac.shape[0]

# Imprimir la cantidad de elementos
print("Número de elementos para la empresa TAC:", num_elements_tac)


Número de elementos para la empresa TAC: 1


In [15]:

# Contar la cantidad de elementos nulos en cada columna del DataFrame df2
null_counts = df2.isnull().sum()

# Imprimir la cantidad de elementos nulos en cada columna
print("Cantidad de elementos nulos en cada columna del DataFrame df2:")
print(null_counts)



Cantidad de elementos nulos en cada columna del DataFrame df2:
longitude,"latitude","housing_median_age","total_rooms","total_bedrooms","population","households","median_income","median_house_value"    0
dtype: int64


El ejercicio de manipulación de datos proporciona una visión completa de cómo cargar, manipular y analizar conjuntos de datos utilizando pandas en Python. 

- Carga de datos: Se cargaron tres conjuntos de datos diferentes desde archivos Excel, CSV y el conjunto de datos Breast Cancer Wisconsin, lo que demuestra la versatilidad de pandas para trabajar con diferentes formatos de datos.

- Creación de un Panel: Se construyó un Panel que contiene los tres DataFrames cargados, lo que facilita la gestión y manipulación de múltiples conjuntos de datos en un solo objeto.

- Extracción de encabezados de columnas: Se desarrolló una función para extraer los encabezados de columnas de todos los DataFrames en el Panel, lo que proporciona una visión general de la estructura de los datos en cada conjunto.

- Impresión de la cantidad de elementos: Otra función se implementó para imprimir la cantidad de elementos en cada DataFrame del Panel, lo que ayuda a comprender el tamaño y la complejidad de los conjuntos de datos.

- Filtrado de datos: Se filtraron muestras específicas en uno de los DataFrames (df1) para obtener solo las muestras relacionadas con la empresa TAC, lo que demuestra cómo realizar operaciones de filtrado para extraer información relevante.

- Identificación de valores nulos: Se contaron los valores nulos en cada columna del DataFrame df2, lo que permite identificar y manejar los datos faltantes de manera adecuada.

En resumen, este ejercicio ilustra las capacidades de pandas para cargar, manipular y analizar datos de manera eficiente, proporcionando herramientas poderosas para el análisis de datos en Python. Las funciones desarrolladas ofrecen una visión detallada de la estructura y el contenido de los conjuntos de datos, así como la capacidad de realizar operaciones de filtrado y limpieza de datos según sea necesario.
