# Laboratorio 1: Introducción a Python para la ciencia de datos


Este documento sirve como una introducción básica a **Python** para el análisis de datos. A lo largo de esta primera sesión, aprenderemos conceptos básicos de Python y nos familiarizaremos con herramientas esenciales para la ciencia de datos. Este será nuestro primer paso para trabajar con datos utilizando Python.



## ¿Qué es Python?

Python es un lenguaje de programación de alto nivel, interpretado y de propósito general. Es ampliamente utilizado en ciencia de datos debido a su simplicidad y la gran cantidad de librerías disponibles para manipular, analizar y visualizar datos. Python se ha convertido en una de las principales herramientas en ciencia de datos debido a su capacidad para procesar y analizar grandes volúmenes de información de manera eficiente. Su popularidad ha crecido notablemente en los últimos años, superando a otros lenguajes como R en plataformas especializadas. Python destaca por su facilidad de uso, con una sintaxis clara y su enfoque en resolver problemas sin preocuparse por detalles técnicos. Además, cuenta con potentes bibliotecas como NumPy, Pandas, y herramientas de machine learning como scikit-learn y TensorFlow. Su versatilidad, adaptabilidad a diferentes formatos de datos y una comunidad activa que sigue desarrollando nuevas herramientas, lo hacen ideal para profesionales del análisis y visualización de datos.
 


## ¿Qué es Jupyter Notebook?

**Jupyter Notebook** es una herramienta interactiva que permite crear y compartir documentos que contienen código, texto, visualizaciones y ecuaciones matemáticas. Es muy popular entre científicos de datos por su facilidad para integrar código y resultados en un mismo documento. Jupyter Notebook es una de las herramientas más usadas en ciencia de datos. Esta plataforma permite realizar diversas tareas, desde la preparación y limpieza de datos hasta la modelización y presentación de resultados. Su versatilidad la convierte en una herramienta útil en todas las etapas del análisis de datos.

### ¿Por qué usar Jupyter Notebook en ciencia de datos?
- Permite escribir y ejecutar código de Python directamente en el navegador.
- Facilita la experimentación interactiva y la presentación de resultados.
- Es ideal para documentar el proceso de análisis de datos.




## Instalación de bibliotecas

En Python, el término *biblioteca* o *librería* es más comúnmente utilizado para referirse a colecciones de módulos y herramientas que permiten realizar tareas específicas, como el manejo de datos numéricos, manipulación y análisis de datos estructurados, o la creación de gráficos y visualizaciones, entre muchas otras opciones. Aunque a veces se pueden llamar *paquetes*, el término más habitual es bibliotecas.

Durante estas sesiones de laboratorio, utilizaremos algunas de las bibliotecas más populares en el análisis de datos. Las principales que exploraremos son:

1. **NumPy**: Para el manejo eficiente datos numéricos y operaciones matemáticas.
2. **Pandas**: Para la manipulación y análisis de datos estructurados a través de DataFrames.
3. **Matplotlib**: Para la visualización de datos.

Para instalar estas librerías puedes utilizar `pip`, el gestor de paquetes de Python. Por ejemplo, para instalar **NumPy**:
```bash
!pip install numpy
```
Este mismo comando se puede usar para instalar **Pandas** y **Matplotlib**.


## Tipos de datos básicos en Python

En Python los datos pueden ser de diferentes tipos según su naturaleza. Los principales tipos de datos son:

- Integer: Tipo de dato para números enteros, ya sean positivos o negativos.
- Float: Tipo de dato para números con precisión decimal, pueden ser negativos o positivos.
- String: Tipo de dato para cadena de texto con caracteres alfanuméricos
- Boolean: Tipo de dato que solo puede tener dos valores, True (Verdadero) o False (Falso).

La función `type()` regresa el tipo de dato de una variable o valor

In [None]:

# Entero (int)
x = 5
print(type(x))

# Número de punto flotante (float)
y = 5.0
print(type(y))

# Cadena de texto (string)
z = "Hola"
print(type(z))

# Datos de tipo booleano:
w = True
print(type(w))


## Listas

Las **listas** en Python son colecciones ordenadas y mutables. A continuación, veremos cómo crear y manipular listas:


In [None]:

# Crear una lista
mi_lista = [1, 2, 3, 4, 5]
print(mi_lista)

# Agregar un elemento a la lista
mi_lista.append(6)
print(mi_lista)

# Acceder a un elemento de la lista
print(mi_lista[2])


## Variables y operadores

En Python, las **variables** son nombres que se utilizan para almacenar datos. Pueden ser de diferentes tipos como enteros, flotantes, cadenas, etc. 

### Operadores básicos:
- `+` : Suma
- `-` : Resta
- `*` : Multiplicación
- `/` : División
- `//` : División entera
- `%` : Módulo (resto de la división)
- `**` : Potencia

Ejemplo de uso de variables y operadores:


In [None]:

# Variables y operadores
a = 10
b = 3
print("Suma:", a + b)
print("Resta:", a - b)
print("Multiplicación:", a * b)
print("División:", a / b)
print("División entera:", a // b)
print("Módulo:", a % b)
print("Potencia:", a ** b)



## Introducción a los DataFrames con Pandas

Pandas es una librería poderosa para el análisis de datos. Su estructura más importante es el **DataFrame**, una tabla en la que cada columna puede tener diferentes tipos de datos (enteros, flotantes, cadenas, etc.).

A continuación, veamos cómo crear un DataFrame y cómo manejarlo.


In [None]:

import pandas as pd

# Crear un DataFrame básico
data = {'Nombre': ['Ana', 'Luis', 'Pedro'],
        'Edad': [23, 34, 29],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia']}

df = pd.DataFrame(data)
print(df)


## Condicionales en Python

Las **estructuras condicionales** permiten ejecutar diferentes bloques de código dependiendo de si una condición es verdadera o falsa. El condicional más común es `if`.

```python
if condición:
    # Hacer algo si la condición es verdadera
else:
    # Hacer algo si la condición es falsa
```

Ejemplo:


In [None]:

x = 15

if x > 10:
    print("x es mayor que 10")
else:
    print("x es menor o igual a 10")


## Importar datos desde un archivo

Pandas permite importar datos desde varios formatos, como archivos CSV, Excel, y más. A continuación, un ejemplo de cómo importar un archivo CSV:


In [None]:

df = pd.read_csv('archivo.csv')  
print(df.head())  # Muestra las primeras filas del DataFrame


## Bucles en Python

Un **bucle** es una estructura que permite repetir un bloque de código varias veces. Los bucles más comunes son `for` y `while`.

### Bucle `for`:
Este bucle se utiliza para iterar sobre una secuencia (como una lista o un rango de números).

Ejemplo:


In [None]:

# Bucle for que imprime los números del 0 al 4
for i in range(5):
    print(i)


### Bucle `while`


El bucle `while` repite el bloque de código mientras la condición sea verdadera.

Ejemplo:


In [None]:

# Bucle while que imprime números hasta que x sea 5
x = 0
while x < 5:
    print(x)
    x += 1  # Incrementar x en 1


## Funciones en Python

Las **funciones** permiten agrupar un conjunto de instrucciones para reutilizarlas más tarde. Se definen usando la palabra clave `def`.

```python
def nombre_funcion(argumentos):
    # Cuerpo de la función
    return resultado
```

Ejemplo:


In [None]:

# Definir una función que suma dos números
def suma(a, b):
    return a + b

# Usar la función
resultado = suma(3, 4)
print("La suma es:", resultado)


## Ejercicios prácticos

Estos ejercicios te permitirán poner en práctica los conceptos básicos de Python que hemos visto en el Laboratorio 1. Algunos ejercicios están relacionados con la Física para reforzar tu aprendizaje en ambas áreas.

### Ejercicio 1: Cálculo de la energía cinética

La fórmula para calcular la energía cinética $E_k$ de un objeto es:

$$E_k = \frac{1}{2}mv^2 $$

Donde:
- $ m $ es la masa del objeto (en kg).
- $ v $ es la velocidad del objeto (en m/s).

Escribe una función en Python llamada `energia_cinetica` que acepte la masa y la velocidad como parámetros, y que calcule y devuelva la energía cinética del objeto. Luego, utiliza esta función para calcular la energía cinética de un objeto de masa 75 kg y velocidad 20 m/s. Recuerda usar la fórmula anterior para el cálculo.

### Ejercicio 2: Identificar números primos

Escribe un programa en Python que haga lo siguiente:
1. Crea una lista con los números del 1 al 50.
2. Utiliza un bucle `for` para recorrer la lista e imprime cada número que sea primo.

##### Sugerencia:
Un número es primo si solo es divisible entre 1 y él mismo.

### Ejercicio 3: Promedio de temperaturas diarias

Un físico está estudiando las temperaturas diarias de una ciudad durante una semana. Las temperaturas (en grados Celsius) son las siguientes:

\[ 21.1, 22.3, 19.8, 23.5, 18.7, 21.0, 20.5 \]

Escribe un programa que haga lo siguiente:
1. Crea una lista con las temperaturas diarias mencionadas.
2. Calcula y muestra el promedio de las temperaturas.
3. Identifica cuál fue la temperatura más alta y cuál fue la más baja durante la semana.

##### Nota:

Para resolver este ejercicio necesitas indagar en internet sobre algunas funciones básicas como "suma", "máximo", "mínimo" o "tamaño" de una lista.

## Soluciones a los ejercicios

### Solución del Ejercicio 1: Cálculo de la energía cinética

In [None]:
# Función para calcular la energía cinética
def energia_cinetica(masa, velocidad):
    return 0.5 * masa * velocidad ** 2

# Usamos la función con masa de 75 kg y velocidad de 20 m/s
masa = 75  # kg
velocidad = 20  # m/s
energia = energia_cinetica(masa, velocidad)
print(f"Energía cinética: {energia}")

### Solución del Ejercicio 2: Identificar números primos

In [None]:
# Función para verificar si un número es primo
def es_primo(n):
    if n < 2:
        return False
    for i in range(2, int(n**0.5) + 1):
        if n % i == 0:
            return False
    return True

# Crear lista de números del 1 al 50 e identificar los primos
for numero in range(1, 51):
    if es_primo(numero):
        print(f"{numero} es primo")

### Solución del Ejercicio 3: Promedio de temperaturas diarias

In [None]:
# Lista de temperaturas diarias
temperaturas = [21.1, 22.3, 19.8, 23.5, 18.7, 21.0, 20.5]

# Calcular el promedio
promedio = sum(temperaturas) / len(temperaturas)
print(f"Promedio de temperaturas: {promedio:.2f} °C")

# Identificar la temperatura más alta y la más baja
temperatura_max = max(temperaturas)
temperatura_min = min(temperaturas)
print(f"Temperatura más alta: {temperatura_max} °C")
print(f"Temperatura más baja: {temperatura_min} °C")