# Programación para el Análisis de Datos
## Tarea 1 - Principios básicos de programación científica - Ejercicio 1.
**08 - 03 - 2024**

## Introducción

El análisis de datos desempeña un papel crucial en una amplia variedad de campos, desde la investigación científica hasta la toma de decisiones empresariales. En el ámbito de la ciencia de datos, contar con las herramientas adecuadas para cargar, manipular y analizar datos es esencial para obtener información significativa y tomar decisiones informadas.

En este trabajo, exploraremos el uso de la biblioteca pandas en Python para llevar a cabo tareas comunes de análisis de datos. Comenzaremos revisando las estructuras de datos fundamentales en Python, como Series, DataFrames y diccionarios, y explicaremos cómo estas estructuras se utilizan para organizar y manipular datos de manera eficiente.

A continuación, realizaremos una revisión teórica de las estructuras de datos y DataFrames, destacando su importancia en el análisis de datos y proporcionando definiciones claras de cada una de estas estructuras.

Posteriormente, pondremos en práctica nuestros conocimientos cargando conjuntos de datos desde archivos externos, como archivos Excel y CSV, y explorando las funcionalidades básicas de pandas para realizar operaciones de manipulación y análisis de datos.

Finalmente, concluiremos destacando la importancia de comprender las estructuras de datos y herramientas de análisis de datos en el contexto más amplio de la ciencia de datos, y reflexionaremos sobre los hallazgos y conclusiones obtenidos durante el desarrollo de este trabajo.

## Ejercicio 1: Estructuras de Datos y DataFrames.

### Descripción del ejercicio:

Desarrolle códigos para ejecutar las siguientes tareas y revisión teórica:

## Revisión Teórica de Estructuras de Datos y DataFrames

Las estructuras de datos son fundamentales en el ámbito de la ciencia de datos y la programación, ya que permiten organizar y manipular grandes conjuntos de información de manera eficiente. Entre las estructuras de datos más utilizadas en el análisis de datos se encuentran las Series, los DataFrames y, aunque en menor medida debido a su desuso, los Paneles.

### ¿Qué es una Estructura de Datos?

Una estructura de datos se refiere a una forma particular de organizar y almacenar datos en un sistema informático para que puedan ser utilizados y manipulados de manera eficiente. En otras palabras, es una manera de organizar y almacenar datos en una computadora para que puedan ser procesados y accedidos de manera fácil y eficiente. Las estructuras de datos son fundamentales en programación y ciencia de la computación, ya que permiten realizar operaciones como búsqueda, inserción, eliminación y manipulación de datos de manera óptima. Ejemplos comunes de estructuras de datos incluyen arrays, listas, pilas, colas, árboles, grafos, entre otros.

### ¿Qué es un DataFrame?

Un DataFrame es una estructura de datos bidimensional en la biblioteca de Python llamada Pandas, que proporciona una forma conveniente para organizar y manipular datos tabulares. Se puede pensar en un DataFrame como una tabla de base de datos SQL o una hoja de cálculo de Excel, donde las filas representan observaciones y las columnas representan variables. Cada columna en un DataFrame es una Serie, que es una estructura de datos unidimensional similar a un array con etiquetas. Los DataFrames son muy utilizados en el análisis de datos, ya que ofrecen una gran variedad de funciones y métodos para realizar operaciones de limpieza, manipulación y análisis de datos de manera eficiente.

### Series

Una Serie es una estructura de datos unidimensional que contiene una secuencia de valores y una secuencia asociada de etiquetas, conocida como índice. Estos valores pueden ser de diferentes tipos de datos, como enteros, flotantes, cadenas, etc. La Serie se asemeja a un array unidimensional en numpy o una columna en una tabla SQL. Sin embargo, una Serie de Pandas posee etiquetas explícitas, lo que permite un acceso más intuitivo a los datos.

### DataFrames

Los DataFrames son estructuras de datos bidimensionales que pueden contener datos de diferentes tipos. Se pueden considerar como una tabla de bases de datos relacionales, donde las filas representan observaciones y las columnas representan variables. Cada columna en un DataFrame es una Serie. Los DataFrames ofrecen una forma flexible de manejar datos tabulares y son ampliamente utilizados en la limpieza, manipulación y análisis de datos.

### Paneles

Los Paneles son estructuras de datos tridimensionales que pueden contener datos de diferentes tipos. Aunque han sido descontinuados en versiones más recientes de Pandas, los Paneles consisten en un conjunto de DataFrames alineados a lo largo de un eje adicional. Este eje adicional se conoce como el eje de 'items'. Los Paneles eran útiles para manejar datos que requerían una indexación tridimensional, pero generalmente han sido reemplazados por alternativas más eficientes y flexibles.

En resumen, las Series y los DataFrames son las estructuras de datos principales en la biblioteca de Pandas, mientras que los Paneles, aunque existieron, han sido desplazados por otras opciones más eficientes y fáciles de usar.

### 1. Parte

Cargue en la variable df1 el conjunto de datos que se presentan en el archivo Excel, Anexo 1 - Base de Datos Excel.xlsx, que se encuentra en la carpeta de la Unidad 1 - Tarea 1 - Fundamentos de programación científica con Python. Tenga en cuenta la hoja, encabezado y celdas en las que comienzan los datos. Los índices del dataframe deben ser los valores en primera columna de la tabla de datos.

In [18]:
import pandas as pd 

# Especifica la ruta completa del archivo
ruta_archivo = r'D:\Erika Monroy\Desarrollo\Analisis de datos\tarea 1\datos\Anexo 1 - Base de Datos EXCEL.xlsx'


In [20]:
# Carga el archivo Excel en un DataFrame
df1 = pd.read_excel(ruta_archivo, sheet_name=1, header=3, index_col=0)

In [22]:
df1

Unnamed: 0_level_0,Empresa,Turno,Día de la semana,Experiencia del conductor,Formación del Paramédico,Nivel del Paramédico,Cantidad de atenciones,Distancia recorrida (Km),Velocidad máxima (Km/h),Consumo de combustible (Galones),Tiempo en Movimiento (h),Tiempo motor ON (h)
Servicio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,TAC,D,5,Principiante,4,I,8,78.4,82,3.1,2.8,3.08
2,TAD,N,4,Principiante,3,B,5,46.2,89,1.9,2.1,2.31
3,TAB,N,4,Experto,4,B,6,62.4,99,2.5,2.6,4.68
4,TAB,D,2,Intermedio,3,B,7,70.2,95,3.0,2.6,3.12
5,TAC,N,7,Principiante,2,I,8,75.6,87,2.8,2.8,3.64
...,...,...,...,...,...,...,...,...,...,...,...,...
2196,TAB,D,3,Experto,3,B,6,58.0,100,1.7,2.9,3.19
2197,TAB,N,6,Intermedio,4,B,7,69.6,92,3.0,2.9,4.64
2198,TAB,D,3,Principiante,2,B,5,50.0,86,2.0,2.5,3.75
2199,TAD,D,7,Intermedio,1,B,6,57.2,94,2.6,2.6,2.86


### 2. Parte

Cargue en la variable df2 el conjunto de datos que se presentan en el archivo CSV, Anexo 2 - Base de Datos CSV.csv, que se
encuentra en la carpeta de la Unidad 1 - Tarea 1 - Fundamentos de programación científica con Python. Tenga en cuenta el tipo
de separador y los encabezados de las columnas.

In [23]:
import pandas as pd

In [25]:
# Especifica la ruta completa del archivo CSV
ruta_archivo_csv = r'D:\Erika Monroy\Desarrollo\Analisis de datos\tarea 1\datos\Anexo 2 - Base de Datos CSV.csv'

In [30]:
# Carga el archivo CSV en un DataFrame
df2 = pd.read_csv(ruta_archivo_csv, sep=',', header=0)

In [31]:
df2

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


### 3. Parte

Cargue los datos Breast Cancer Wisconsin Dataset que se encuentran en la variable load_breast_cancer del paquete sklearn, en un dataframe de pandas asignado a la variable df3.

In [32]:
import pandas as pd
from sklearn.datasets import load_breast_cancer

In [33]:
# Cargar el dataset Breast Cancer Wisconsin
data = load_breast_cancer()
# Convertir los datos a un DataFrame de Pandas
df3 = pd.DataFrame(data.data, columns=data.feature_names)
# Agregar la columna target al DataFrame, que indican si un tumor es maligno o benigno (0 para maligno y 1 para benigno).
df3['target'] = data.target

In [36]:
df3

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890,0
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902,0
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300,0
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115,0
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637,0
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820,0
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400,0


### 4. Parte

Construya un Panel con los tres (3) dataframes cargados anteriormente: df1, df2 y df3. Para construir este panel, cree un
diccionario llamado panel que en sus keys tenga los nombres de los conjuntos de datos y los valores sean los dataframes.

In [44]:
# Crear un diccionario con los DataFrames
panel = {
    'MEDICINA': df1,
    'INMOBILIARIA': df2,
    'CANCER': df3
}

### 5. Parte 

Programe una función que extraiga todas las listas de los encabezados de columnas que se encuentran en un Panel y úsela para extraer las listas de columnas del Panel del punto anterior. Imprima los resultados de forma que se diferencien los encabezados entre los dataframes en el Panel.

In [45]:
def extraer_encabezados(panel):
    encabezados = {}
    for key, df in panel.items():
        encabezados[key] = df.columns.tolist()
    return encabezados

In [46]:
# Extraer los encabezados de columnas
columnas_panel = extraer_encabezados(panel) 

In [47]:
# Imprimir los resultados
for key, columnas in columnas_panel.items():
    print(f"Encabezados para el DataFrame '{key}':")
    print(columnas)
    print()

Encabezados para el DataFrame 'MEDICINA':
['Empresa', 'Turno', 'Día de la semana', 'Experiencia del conductor', 'Formación del Paramédico', 'Nivel del Paramédico', 'Cantidad de atenciones', 'Distancia recorrida (Km)', 'Velocidad máxima (Km/h)', 'Consumo de combustible (Galones)', 'Tiempo en Movimiento (h)', 'Tiempo motor ON (h)']

Encabezados para el DataFrame 'INMOBILIARIA':
['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value']

Encabezados para el DataFrame 'CANCER':
['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error', 'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 'worst perimeter',

### 6. Parte

Programe una función que imprima la cantidad de elementos que tienen las bases de datos en un Panel y úsela con el Panel del punto anterior. Imprima los resultados de forma que se diferencien los tamaños de los diferentes dataframes en el Panel.

In [48]:
def imprimir_cantidad_elementos(panel):
    for key, df in panel.items():
        cantidad_elementos = len(df)
        print(f"Cantidad de elementos para el DataFrame '{key}': {cantidad_elementos}")

In [49]:
# Usar la función con el panel del punto anterior
imprimir_cantidad_elementos(panel)

Cantidad de elementos para el DataFrame 'MEDICINA': 2200
Cantidad de elementos para el DataFrame 'INMOBILIARIA': 3000
Cantidad de elementos para el DataFrame 'CANCER': 569


### 7. Parte

Filtre el dataframe df1 para obtener las muestras de la empresa TAC. Determine cuantos elementos tiene dicho filtro.

In [53]:
df1[df1['Empresa']=='TAC']

Unnamed: 0_level_0,Empresa,Turno,Día de la semana,Experiencia del conductor,Formación del Paramédico,Nivel del Paramédico,Cantidad de atenciones,Distancia recorrida (Km),Velocidad máxima (Km/h),Consumo de combustible (Galones),Tiempo en Movimiento (h),Tiempo motor ON (h)
Servicio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,TAC,D,5,Principiante,4,I,8,78.4,82,3.1,2.8,3.08
5,TAC,N,7,Principiante,2,I,8,75.6,87,2.8,2.8,3.64
10,TAC,N,3,Principiante,3,B,6,55.0,87,2.3,2.5,3.25
11,TAC,N,1,Principiante,4,B,6,59.8,88,2.7,2.3,3.45
16,TAC,D,3,Intermedio,4,B,5,50.4,93,1.9,2.4,4.08
...,...,...,...,...,...,...,...,...,...,...,...,...
2181,TAC,D,6,Intermedio,2,B,5,50.4,90,2.3,2.4,2.88
2185,TAC,D,1,Principiante,2,I,8,84.0,88,2.9,3.0,3.60
2192,TAC,D,4,Intermedio,2,I,8,78.0,97,2.7,3.0,4.20
2194,TAC,N,3,Intermedio,4,B,6,59.4,93,2.5,2.7,3.78


In [54]:
# Filtrar el DataFrame df1 para obtener las muestras de la empresa TAC
muestras_TAC = df1[df1['Empresa'] == 'TAC']
# Determinar cuántos elementos tiene el filtro
cantidad_elementos_TAC = len(muestras_TAC)
# Imprimir el resultado
print("Número de elementos para la empresa TAC:", cantidad_elementos_TAC)

Número de elementos para la empresa TAC: 596


### 8. Parte

Determine cuantos elementos nulos hay en cada una de las columnas del dataframe df2.

In [57]:
# Determinar cuántos elementos nulos hay en cada columna de df2
elementos_nulos_por_columna = df2.isnull().sum()

# Imprimir el resultado
print("Cantidad de elementos nulos por columna en df2:")
print(elementos_nulos_por_columna)

Cantidad de elementos nulos por columna en df2:
longitude             0
latitude              5
housing_median_age    1
total_rooms           1
total_bedrooms        1
population            3
households            2
median_income         2
median_house_value    0
dtype: int64


## Conclusiones

1. Una conclusión importante sobre la revisión teórica de las estructuras de datos y DataFrames es que estas son fundamentales en el ámbito de la ciencia de datos y la programación. Permiten organizar y manipular grandes conjuntos de información de manera eficiente, lo que es esencial para el análisis de datos. Las Series, los DataFrames y, aunque en menor medida debido a su desuso, los Paneles, son estructuras de datos clave en el análisis de datos con Python y la biblioteca Pandas.

2. **Importancia de las estructuras de datos y DataFrames**: Durante el desarrollo de este trabajo, se exploraron y utilizaron varias estructuras de datos, como Series, DataFrames y diccionarios, para manipular y analizar datos de manera efectiva. Estas estructuras proporcionan una forma organizada y flexible de trabajar con datos en Python.

3. **Uso de bibliotecas y herramientas de análisis de datos**: Se utilizó la biblioteca pandas en Python para cargar, manipular y analizar datos tabulares de diferentes fuentes, como archivos Excel y CSV, así como conjuntos de datos incorporados como el Breast Cancer Wisconsin Dataset. Esto resalta la importancia de conocer y utilizar herramientas especializadas para el análisis de datos.

4. **Proceso de carga y preprocesamiento de datos**: Se exploraron técnicas para cargar datos desde archivos externos y se abordaron tareas comunes de preprocesamiento, como la limpieza de datos faltantes y la manipulación de formatos de datos. Estos pasos son esenciales para garantizar la calidad y la integridad de los datos antes de realizar cualquier análisis o modelado.

5. **Análisis exploratorio de datos (EDA)**: Se realizaron diversas operaciones de EDA, como la selección, filtrado y agregación de datos, así como la visualización básica de los mismos. Estas actividades ayudaron a comprender la estructura y las características de los datos, identificar patrones y tendencias, y generar ideas para análisis posteriores.

6. **Flexibilidad y adaptabilidad en el análisis de datos**: Se destacó la flexibilidad y la adaptabilidad de las herramientas de análisis de datos en Python, que permiten trabajar con conjuntos de datos de diferentes tamaños, formatos y complejidades. Desde el análisis de datos simples hasta el análisis de datos más avanzado y la construcción de modelos predictivos, Python ofrece herramientas poderosas para abordar una amplia gama de problemas.

En resumen, este trabajo proporcionó una introducción práctica al análisis de datos utilizando Python y la biblioteca pandas. Se exploraron diversas técnicas y herramientas para cargar, manipular y analizar datos de manera efectiva, lo que destaca la importancia de adquirir habilidades en análisis de datos para abordar problemas del mundo real de manera informada y efectiva.


## Referencias Bibliográficas

**1.** Alex Galea. (2018). Applied Data Science with Python and Jupyter: Use Powerful Industry-standard Tools to Unlock New, Actionable Insights From Your Data: Vol. 1st edition. Packt Publishing. (pp. 22-28).

**2.** Boschetti, A., & Massaron, L. (2016). Python Data Science Essentials - Second Edition (Vol. 0002). Packt Publishing. (pp.63-78).

**3.** Samir Madhavan. (2015). Mastering Python for Data Science:Explore the World of Data Science Through Python and Learn How to Make Sense of Data. Packt Publishing. (pp. 7-18).

**4.** Vargas, M. (2022). Carga de datos en Python desde un archivo Excel. UNAD. [OVI]