# Programación para el Análisis de Datos
## Tarea 0 - Instalación y reconocimiento de las herramientas de programación
**20 - 02 - 2024**


### Ejercicio 1: Instalación de las herramientas de programación.

## Introducción

En el campo de la ciencia de datos, tener acceso a herramientas eficientes y fáciles de usar es esencial para el éxito de 
cualquier proyecto. Anaconda se presenta como una distribución de Python especialmente diseñada para satisfacer las necesidades
de los científicos de datos, simplificando el proceso de instalación y gestión de paquetes. En esta introducción, exploraremos 
el paso a paso del proceso de instalación de Anaconda, desde la descarga inicial hasta la configuración del entorno de 
desarrollo. A lo largo de este proceso, destacaremos las características clave que hacen de Anaconda una opción preferida en 
el ámbito de la ciencia de datos, proporcionando una guía completa para aquellos que deseen comenzar a utilizar esta poderosa 
herramienta en sus proyectos de análisis de datos.

## Pasos para la instalación de Anaconda y configuración de un ambiente de Python para ciencia de datos:

1. **Descarga de Anaconda:** Para comenzar, visita el [sitio web oficial de Anaconda](https://docs.anaconda.com/free/anaconda/install/) y descarga la versión adecuada para tu sistema operativo (Windows, macOS o Linux). Asegúrate de elegir la versión de Python que mejor se adapte a tus necesidades, ya sea Python 3.7, 3.8, o una versión posterior.

2. **Instalación de Anaconda:** Una vez descargado el instalador, ejecútalo y sigue las instrucciones del asistente de instalación. En la mayoría de los casos, puedes aceptar la configuración predeterminada. Durante la instalación, asegúrate de marcar la opción para agregar Anaconda al PATH del sistema, lo que facilitará el acceso a los comandos de Anaconda desde cualquier ubicación en tu sistema.

3. **Creación de un ambiente virtual:** Después de instalar Anaconda, abre una terminal o un símbolo del sistema (dependiendo de tu sistema operativo) y crea un nuevo ambiente virtual utilizando el comando `conda create`. Por ejemplo, para crear un ambiente llamado "ciencia_datos", ejecuta el siguiente comando:

   ```bash
   conda create --name ciencia_datos python=3.8
   ```

   Esto creará un nuevo ambiente virtual con Python 3.8 instalado. Puedes reemplazar "ciencia_datos" con el nombre que prefieras para tu ambiente.

4. **Activación del ambiente virtual:** Una vez creado el ambiente, actívalo utilizando el siguiente comando:

   ```bash
   conda activate ciencia_datos
   ```

   Al activar el ambiente, verás que el prefijo de tu terminal cambiará para indicar que estás trabajando dentro del ambiente virtual.

5. **Instalación de paquetes adicionales:** Con el ambiente virtual activado, puedes instalar fácilmente los paquetes adicionales que necesites para tu proyecto de ciencia de datos utilizando el comando `conda install`. Por ejemplo, para instalar pandas, numpy y matplotlib, ejecuta:

   ```bash
   conda install pandas numpy matplotlib
   ```

   Esto instalará las bibliotecas pandas, numpy y matplotlib dentro del ambiente virtual actual.

6. **Verificación de la instalación:** Para asegurarte de que Anaconda y los paquetes se hayan instalado correctamente, puedes ejecutar algunos comandos simples, como `python --version` para verificar la versión de Python instalada, o `conda list` para ver una lista de todos los paquetes instalados en el ambiente actual.

Con estos pasos, has completado la instalación de Anaconda y configurado un ambiente de Python para ciencia de datos. Ahora estás listo para comenzar a desarrollar y ejecutar tus proyectos de análisis de datos utilizando las herramientas proporcionadas por Anaconda.
```

## Jupyter


Instalación y reconocimiento de la distribución Anaconda de Python para ciencia de datos con una captura de pantalla de jupyter funcionando.

![Jupyter%20notebook.png](attachment:Jupyter%20notebook.png)

### Ejercicio 2: Reconocimiento de las herramientas de programación

1. **¿Qué es Jupyter y cómo puede serle útil a un científico de datos?**
   
   Jupyter es un entorno de computación interactivo que permite la creación y compartición de documentos que contienen código, visualizaciones y texto explicativo. Para un científico de datos, Jupyter es útil porque le permite escribir y ejecutar código Python (u otros lenguajes) de manera interactiva, facilitando la exploración y análisis de datos de manera eficiente y colaborativa.

2. **¿Qué es una celda markdown?**

   Una celda markdown es un tipo de celda en un entorno de computación como Jupyter que permite escribir y formatear texto utilizando el lenguaje de marcado Markdown. Este tipo de celda se utiliza para proporcionar documentación, explicaciones, notas o comentarios dentro de un documento Jupyter, permitiendo agregar texto enriquecido con formato como encabezados, listas, enlaces, imágenes, etc.

3. **¿Qué es un paquete (o librería) en Python?**

   Un paquete o librería en Python es un conjunto de módulos y funciones predefinidas que proporcionan un conjunto específico de herramientas y capacidades para realizar tareas específicas. Estas librerías pueden ser importadas en un programa Python para extender su funcionalidad y facilitar el desarrollo de software al reutilizar código ya creado por otros.

4. **Describa para qué sirven cada una de las siguientes librerías:**

   - **Pip:** Es un sistema de gestión de paquetes para instalar y administrar paquetes de software escritos en Python desde el Python Package Index (PyPI).
   
   - **NumPy:** Es una librería fundamental para la computación científica en Python, que proporciona estructuras de datos eficientes para la manipulación de matrices y matrices multidimensionales, junto con funciones matemáticas de alto nivel para operar en estos datos.
   
   - **Pandas:** Es una librería que ofrece estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es especialmente útil para manipular y analizar datos tabulares y series temporales.
   
   - **Seaborn:** Es una librería de visualización de datos estadísticos en Python, construida sobre matplotlib. Facilita la creación de gráficos estadísticos atractivos y informativos con menos código.
   
   - **Matplotlib:** Es una librería de visualización de datos en Python que permite crear una amplia variedad de gráficos de alta calidad, incluyendo gráficos de líneas, dispersión, barras, histogramas, entre otros.
   
   - **scikit-learn:** Es una librería de aprendizaje automático en Python que proporciona una amplia gama de algoritmos de aprendizaje supervisado y no supervisado, así como herramientas para preprocesamiento de datos, evaluación de modelos y selección de modelos.
   
   - **Requests:** Es una librería de Python que permite realizar peticiones HTTP de manera sencilla, lo que la hace útil para interactuar con servicios web y consumir APIs.
   
   - **Bokeh:** Es una librería interactiva de visualización de datos en Python que se centra en la creación de gráficos interactivos y aplicaciones web para explorar y presentar datos.
   
   - **Folium:** Es una librería de Python que permite crear mapas interactivos y visualizaciones geoespaciales utilizando datos de código abierto de OpenStreetMap y Leaflet.js. Es útil para visualizar datos geográficos y crear aplicaciones basadas en mapas.

## Ejercicio 3: Estructuras Básicas de Datos con Python.

**Realice códigos para implementar las siguientes tareas:**

**a.** Construya un diccionario en el cual las llaves (keys) sean los nombres (strings) de ocho (8) personas de su entorno familiar o amigos y los valores (values) sean tuplas de cuatro (4) elementos que contengan la siguiente información de cada
persona en orden: (Edad, Peso, Estatura, Estudia). La edad debe ser en años, el peso en kilogramos, la estatura en metros y el
elemento de estudia debe ser un Booleano, en el cual True significa que si estudia y False el caso contrario.

In [31]:
#Defeniendo el diccionario familia

familia = {
    "Abdias Monroy": (55, 80, 1.75, False),
    "Reina Lozano" : (43, 97, 1.60, False),
    "Santiago Monroy":(5, 17, 110, True),
    "Tatiana Monroy":(25, 65,1.68, False),
    "Alex Monroy": (20, 70, 1.80, True),
    "Nikolas Monroy":(19, 58, 1.77, True),
    "William Vasquez":(25, 74, 1.68, False),
    "Erika Monroy": (23, 50, 1.58, True),
}

In [32]:
# se muestra en consola los datos del diccionario familia

print(familia) 

# se muestra la edad de erika monroy
print(familia["Erika Monroy"][0])

{'Abdias Monroy': (55, 80, 1.75, False), 'Reina Lozano': (43, 97, 1.6, False), 'Santiago Monroy': (5, 17, 110, True), 'Tatiana Monroy': (25, 65, 1.68, False), 'Alex Monroy': (20, 70, 1.8, True), 'Nikolas Monroy': (19, 58, 1.77, True), 'William Vasquez': (25, 74, 1.68, False), 'Erika Monroy': (23, 50, 1.58, True)}
23


**b** Implemente ciclos (for o while) para extraer la información del diccionario creado anteriormente y generar las siguientes cuatro (4) listas: Edades, Pesos, Estaturas y Estudia.

In [33]:
# se inicializa las listas edades, pesos, estaturas, estudia

edades = []
pesos = []
estaturas = []
estudia = []

# se recorren los datos del diccionario familia 

for key, value in familia.items():
    #print(key, value)
    # se agrega la edad del item a la lista edades
    edades.append(value[0])
    # se agrega el peso del item a la lista de pesos
    pesos.append(value[1])
    # se agrega la estatura del item a la lista de estaturas
    estaturas.append(value[2])
    # se agrega estudia del item a la lista estudia
    estudia.append(value[3])

# se muestra la lista por consola

print("EDADES:",edades)
print("PESOS:",pesos)
print("ESTATURAS:",estaturas)
print("ESTUDIA:",estudia)

EDADES: [55, 43, 5, 25, 20, 19, 25, 23]
PESOS: [80, 97, 17, 65, 70, 58, 74, 50]
ESTATURAS: [1.75, 1.6, 110, 1.68, 1.8, 1.77, 1.68, 1.58]
ESTUDIA: [False, False, True, False, True, True, False, True]


**c.** Defina una función que reciba como parámetros una lista y regrese (return) el promedio de dicha lista. Utilice dicha función para imprimir (print) el promedio de las listas del inciso anterior.

In [42]:
# la funcion promedio permite calcular el promedio de una lista

def promedio(lista):
    # hacemos utilidad de la función sum para sumar los item de la lista 
    sum_lista = sum(lista)
    # Calculamos el promedio de la lista
    promedio_lista = sum_lista / len(lista)
    # retornamos el valor promedio de la lista
    return promedio_lista
# mostramos en consola los promedios de cada lista
print("Promedio de Edades:",promedio(edades))
print("Promedio de Pesos:",promedio(pesos))
print("Promedio de Estaturas:",promedio(estaturas))

Promedio de Edades: 26.875
Promedio de Pesos: 63.875
Promedio de Estaturas: 15.2325


## CONCLUSIONES

**1** La instalación de Anaconda y la configuración de un ambiente de Python para ciencia de datos simplifican enormemente el desarrollo de proyectos analíticos. Desde la descarga hasta la creación de ambientes virtuales, Anaconda ofrece una solución integral y eficiente. Esta distribución no solo facilita la gestión de dependencias, sino que también asegura un entorno de trabajo aislado y reproducible. En resumen, Anaconda es una opción poderosa que promueve la flexibilidad y la eficiencia en el desarrollo de proyectos de ciencia de datos.

**2.** Una conclusión importante de este ejercicio es que en el campo de la ciencia de datos y la programación en Python, es crucial tener un buen entendimiento de las herramientas disponibles y cómo se utilizan. Cada una de las librerías mencionadas en el ejercicio cumple funciones específicas que son fundamentales para realizar tareas como manipulación y análisis de datos, visualización, aprendizaje automático, entre otras.

**3.** El uso de entornos interactivos como Jupyter y la comprensión de conceptos básicos como las celdas Markdown son habilidades esenciales para comunicar resultados, documentar código y colaborar de manera efectiva en proyectos de ciencia de datos.

**4.** Estos ejercicio destaca la importancia de familiarizarse con las herramientas y conceptos básicos de programación en Python para tener éxito en el ámbito de la ciencia de datos y la programación en general.

## Referencias Bibliográficas

**1.** Alex Galea. (2018). Applied Data Science with Python and Jupyter: Use Powerful Industry-standard Tools to Unlock New,
Actionable Insights From Your Data: Vol. 1st edition. Packt Publishing. (pp. 1-20).

**2.** Boschetti, A., & Massaron, L. (2016). Python Data Science Essentials - Second Edition (Vol. 0002). Packt Publishing. (pp.33-51).

**3.** Alvarez, C. (2020) Introducción al Jupyter Notebook y aplicaciones básicas. Medellín, Colombia. [OVI]

**4.** Thakur, A. (2016). Python: Real-World Data Science. Packt Publishing. (pp. 199 - 220).

**5.** Kane, F. (2017). Hands-On Data Science and Python Machine Learning. Packt Publishing. (pp. 20-39).
