# Laboratorio 2: Estadística descriptiva con Python I


En este laboratorio, aprenderemos los primeros comandos para realizar un **análisis descriptivo** de un conjunto de datos utilizando diferentes bibliotecas de Python. Para introducirnos en el análisis de datos comenzaremos introduciendo tres bibliotecas de debemos conocer:
1. Pandas.
2. NumPy.
3. SciPy.
4. Matplotlib.

### 1. Pandas

Pandas es una biblioteca de Python muy popular y poderosa para la manipulación y análisis de datos, diseñada específicamente para trabajar con estructuras de datos como tablas y series temporales. Proporciona estructuras de datos de alto rendimiento y herramientas para facilitar la carga, manipulación, limpieza, análisis y almacenamiento de datos de manera eficiente.

#### Componentes principales de Pandas:
1. **Series**: Es una estructura unidimensional, similar a un array de NumPy, pero con la capacidad de etiquetar los datos mediante un índice. Cada elemento de una serie tiene un valor y una etiqueta asociada, lo que permite un acceso más flexible a los datos.

2. **DataFrame**: Es la estructura de datos más importante en Pandas. Un DataFrame es una tabla bidimensional (similar a una hoja de cálculo) en la que cada columna puede contener diferentes tipos de datos (numéricos, cadenas, etc.). Cada fila y columna está etiquetada, lo que permite acceder a los datos mediante índices y realizar operaciones sobre ellos fácilmente.

#### Funcionalidades clave de Pandas:
- **Carga de datos**: Pandas permite cargar datos de varios formatos como CSV, Excel, SQL, JSON, etc.

- **Manipulación de datos**: Puedes filtrar, agregar o transformar datos fácilmente. Pandas permite realizar operaciones comunes como eliminar valores nulos, reemplazar valores, cambiar el formato de datos, entre otros.

- **Análisis de datos**: Pandas facilita la generación de estadísticas descriptivas y la manipulación de grandes cantidades de datos de forma eficiente. También incluye funciones para combinar, agrupar y agregar datos.

- **Gráficos**: Pandas se integra con bibliotecas como Matplotlib para crear gráficos de forma rápida y sencilla.

Pandas es una herramienta fundamental en el análisis de datos con Python, muy valorada por su simplicidad y potencia al trabajar con datos estructurados como tablas, lo que la convierte en una de las bibliotecas más utilizadas en ciencia de datos, finanzas, ingeniería y otros campos.

Para instalar Pandas debemos ejecutar el siguiente comando:

In [None]:
pip install pandas

### 2. NumPy

NumPy es una biblioteca fundamental en Python para la computación numérica y científica. Su nombre proviene de "Numerical Python" y es ampliamente utilizada debido a su capacidad para manejar eficientemente grandes arreglos y matrices multidimensionales, así como para realizar operaciones matemáticas de alto rendimiento sobre estos datos.

#### Componentes clave de NumPy:
1. **Array o Arreglo N-dimensional** (`ndarray`): Es la estructura central de NumPy. Un arreglo es una estructura de datos que almacena elementos de manera ordenada en múltiples dimensiones. A diferencia de las listas de Python, los arreglos de NumPy son mucho más eficientes en términos de memoria y velocidad para cálculos matemáticos.

2. **Operaciones elementales**: NumPy permite realizar operaciones matemáticas de manera vectorizada (operaciones entre arreglos) sin necesidad de escribir bucles, lo que es más rápido y eficiente.

3. **Funciones matemáticas**: NumPy ofrece una amplia gama de funciones matemáticas como trigonometría, estadísticas, álgebra lineal, transformadas de Fourier, entre otras. Estas funciones son optimizadas para trabajar con arreglos grandes.

#### Funcionalidades clave de NumPy:
- **Manipulación de matrices y arreglos**: NumPy permite crear y manipular arreglos N-dimensionales de una manera eficiente, con métodos para redimensionar, cortar (slicing) y seleccionar elementos, así como transponer matrices.

- **Álgebra lineal**: NumPy incluye herramientas para realizar operaciones matriciales avanzadas como la multiplicación de matrices, inversa de matrices, descomposiciones y cálculo de autovalores/autovectores.

- **Generación de números aleatorios**: NumPy tiene un módulo para la generación de números aleatorios con distribuciones uniformes, normales, entre otras. Esto es útil para simulaciones y modelos probabilísticos.

- **Manipulación de grandes volúmenes de datos**: La eficiencia de NumPy lo convierte en la elección ideal para realizar operaciones con grandes volúmenes de datos numéricos, gracias a su capacidad para almacenar datos de forma contigua en memoria y evitar bucles innecesarios.

NumPy es la biblioteca base para cualquier tarea relacionada con datos numéricos en Python, desde el manejo de matrices y álgebra lineal hasta la generación de números aleatorios y operaciones matemáticas avanzadas. Su integración con otras bibliotecas como Pandas, SciPy y Matplotlib la convierte en una herramienta esencial en áreas como ciencia de datos, ingeniería, finanzas y más.

Para instalar NumPy debemos ejecutar el siguiente comando:

In [None]:
pip install numpy

### 3. SciPy

SciPy es una biblioteca de código abierto en Python utilizada para la computación científica y técnica. Está diseñada para complementar a NumPy, proporcionando una gran cantidad de funciones y herramientas avanzadas para resolver problemas matemáticos, científicos e ingenieriles. Mientras que NumPy ofrece capacidades básicas de manipulación de arrays y operaciones matemáticas, SciPy extiende esas capacidades con módulos especializados para tareas más complejas.

Algunas de las áreas en las que SciPy se utiliza incluyen:

1. **Álgebra lineal**: Resolución de sistemas de ecuaciones lineales, factorizaciones de matrices, cálculo de autovalores y autovectores.
2. **Optimización**: Solución de problemas de optimización lineal y no lineal, incluidos métodos como la minimización de funciones.
3. **Interpolación**: Creación de funciones continuas a partir de datos discretos, como interpolaciones cúbicas o spline.
4. **Integración**: Cálculo numérico de integrales y derivadas.
5. **Procesamiento de señales**: Filtrado, transformación de Fourier y análisis de señales.
6. **Estadística**: Distribuciones probabilísticas, pruebas estadísticas y ajuste de modelos.
7. **Ecuaciones diferenciales**: Solución numérica de ecuaciones diferenciales ordinarias (ODE).

SciPy es una herramienta fundamental para quienes necesitan realizar cálculos matemáticos avanzados y análisis de datos en Python, y está ampliamente utilizada en áreas como la ingeniería, la física, la biología, la economía, y más.

Para instalar SciPy debemos ejecutar el siguiente comando:

In [None]:
pip install scipy

### 4. Matplotlib

Matplotlib es una biblioteca de Python utilizada para crear gráficos y visualizaciones de datos de alta calidad. Es una de las herramientas más populares para la visualización en la comunidad científica y de análisis de datos, ya que permite generar gráficos de todo tipo de manera sencilla y personalizable. Además, se integra bien con otras bibliotecas populares como NumPy, SciPy y Pandas.

### Características clave de Matplotlib:

1. **Gráficos bidimensionales**: Matplotlib permite generar gráficos como:
   - Gráficos de líneas (line plots)
   - Gráficos de dispersión (scatter plots)
   - Gráficos de barras (bar plots)
   - Histogramas
   - Gráficos de cajas y bigotes (box plots)

2. **Subplots y diseño personalizado**: Puedes crear múltiples gráficos dentro de una misma figura y personalizar el diseño de las gráficas (colores, etiquetas, leyendas, tamaños, etc.). Esto es útil cuando necesitas mostrar varias visualizaciones en paralelo.

3. **Interactividad**: Matplotlib admite gráficos interactivos, donde los usuarios pueden acercar, alejar y explorar diferentes partes de una gráfica. También se puede combinar con bibliotecas interactivas como `mpld3` o `plotly` para añadir aún más funcionalidad interactiva.

4. **Compatibilidad con Jupyter Notebooks**: Matplotlib se integra de manera natural en los cuadernos de Jupyter, lo que facilita la visualización de gráficos directamente en los análisis de datos.

Matplotlib está diseñado para ser compatible con la mayoría de las aplicaciones científicas. Sus gráficos personalizables y su integración con otras bibliotecas como NumPy y Pandas lo hacen ideal para científicos de datos, investigadores y desarrolladores que necesitan visualizaciones de alta calidad para analizar y presentar datos.

Para instalar Matplotlib debemos ejecutar el siguiente comando:

In [None]:
pip install matplotlib

## Análisis descriptivo con Python

Vamos a comenzar introduciendo comandos básicos para realizar un analisis descriptivo de un conjunto de datos que tenemos en un DataFrame.

### Medidas de centralidad de los datos

Las medidas de centralidad nos indican valores representativos de los datos. Las más comunes son la **media** (promedio aritmético) y la **mediana** (valor que separa los datos en dos mitades).

Para calcular la media y la mediana de un conjunto de datos almacenado en un DataFrame con Pandas, podemos usar las funciones `.mean()` y `.median()` respectivamente.

##### Ejemplo

In [None]:

import pandas as pd

# Creamos un DataFrame de ejemplo con velocidades de partículas (en m/s)
data = {'Velocidad (m/s)': [2.4, 2.8, 3.0, 3.1, 2.7, 2.5, 3.2, 2.9, 2.6, 3.0]}
df = pd.DataFrame(data)

# Cálculo de la media y mediana
media = df['Velocidad (m/s)'].mean()
mediana = df['Velocidad (m/s)'].median()

print(f"Media de las velocidades: {media:.2f} m/s")
print(f"Mediana de las velocidades: {mediana:.2f} m/s")


### Medidas de posición de los datos

Las medidas de posición, como los **cuartiles**, **deciles** y **percentiles**, nos permiten conocer la distribución relativa de los datos. Dividen los datos en partes iguales. Por ejemplo, los cuartiles dividen los datos en cuatro partes, los deciles en diez partes y los percentiles en cien partes.

Para calcular cuartiles, deciles y percentiles en Pandas usamos el método `.quantile()`.

##### Ejemplo (continuación)

In [None]:

# Cálculo de cuartiles, percentiles y deciles
cuartiles = df['Velocidad (m/s)'].quantile([0.25, 0.5, 0.75])
percentil_90 = df['Velocidad (m/s)'].quantile(0.9)
deciles = df['Velocidad (m/s)'].quantile([i/10 for i in range(1, 10)])

print(f"Cuartiles: {cuartiles}")
print(f"Percentil 90: {percentil_90:.2f} m/s")
print(f"Deciles: {deciles}")


### Medidas de dispersión de los datos

Las medidas de dispersión nos indican cuán dispersos están los datos respecto a su media. Las más comunes son la **varianza** y la **desviación típica**. El **coeficiente de variación** expresa la dispersión relativa con respecto a la media.

Pandas nos permite calcular estas medidas usando las funciones `.var()` para la varianza y `.std()` para la desviación típica.

##### Ejemplo (continuación)

In [None]:

# Cálculo de varianza, desviación típica y coeficiente de variación
varianza = df['Velocidad (m/s)'].var()
desviacion_tipica = df['Velocidad (m/s)'].std()
coef_var = desviacion_tipica / media

print(f"Varianza: {varianza:.2f}")
print(f"Desviación típica: {desviacion_tipica:.2f} m/s")
print(f"Coeficiente de variación: {coef_var:.2f}")


### Medidas de forma de los datos

La medidas de forma más comunmente empleadas son el **coeficiente de asimetría** y el **coeficiente de curtosis**. Para calcular ambos estadísticos debemos utilizar la biblioteca SciPy.

##### Ejemplo (continuación)

In [None]:

# Para las medidas de forma usaremos SciPy
from scipy.stats import skew, kurtosis

asimetria = skew(df['Velocidad (m/s)'])
curtosis = kurtosis(df['Velocidad (m/s)'])

print(f"Coeficiente de asimetría: {asimetria:.2f}")
print(f"Coeficiente de curtosis: {curtosis:.2f}")


## Visualización de datos

A continuación, aprenderemos cómo crear diferentes tipos de gráficos a partir de datos almacenados en un **DataFrame** utilizando la biblioteca **matplotlib**.

**Matplotlib** es una biblioteca de Python para la creación de gráficos estáticos, animados e interactivos. Es una de las herramientas más populares para la visualización de datos en Python. A continuación, veremos ejemplos de cómo hacer diagramas de barras, histogramas, polígonos de frecuencias y gráficos de series temporales.

Aunque existen otras opciones, Matplotlib es la biblioteca estándar para la creación de gráficos en Python debido a su amplia funcionalidad y flexibilidad que la convierten en una herramienta esencial para la visualización de datos. 

##### Ejemplo básico de uso de Matplotlib:

Para crear un gráfico básico de líneas, primero importas la biblioteca y luego puedes generar los gráficos utilizando el módulo `pyplot`:


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Datos de ejemplo
x = np.linspace(0, 10, 100)
y = np.sin(x)

# Crear el gráfico
plt.plot(x, y)

# Añadir etiquetas y título
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Sine Wave')

# Mostrar el gráfico
plt.show()

Ahora vamos a ver cómo crear gráficos básico en estadística.

#### Diagrama de barras

Un **diagrama de barras** se utiliza para mostrar la frecuencia de valores categóricos o discretos. Vamos a crear un ejemplo usando los datos de varios materiales y su resistencia medida en experimentos.

##### Ejemplo

In [None]:

import pandas as pd
import matplotlib.pyplot as plt

# Crear DataFrame con datos de resistencia de materiales
data = {'Material': ['Acero', 'Aluminio', 'Cobre', 'Plástico', 'Madera'],
        'Resistencia (MPa)': [500, 150, 200, 50, 100]}
df = pd.DataFrame(data)

# Crear un diagrama de barras
df.plot(kind='bar', x='Material', y='Resistencia (MPa)', legend=False)
plt.title('Resistencia de materiales')
plt.xlabel('Material')
plt.ylabel('Resistencia (MPa)')
plt.show()


#### Histograma

Un **histograma** muestra la distribución de una variable continua, dividiendo los datos en intervalos (o bins) y mostrando la frecuencia de los datos dentro de cada intervalo.

##### Ejemplo

In [None]:

# Crear DataFrame con datos de la velocidad de partículas en un experimento
data = {'Velocidad (m/s)': [10, 10.1, 10.5, 10.8, 10.9, 11.4, 11.6, 12, 13.1, 15, 15.5, 16, 16.1, 16.2, 16.3, 16.8, 17.1, 18.4, 19, 19.8, 20, 21.4, 23, 23.5]}
df = pd.DataFrame(data)

# Crear un histograma
df['Velocidad (m/s)'].plot(kind='hist', bins=5, edgecolor='black')
plt.title('Histograma de velocidades de partículas')
plt.xlabel('Velocidad (m/s)')
plt.ylabel('Frecuencia')
plt.show()

#### Polígono de frecuencias

Un **polígono de frecuencias** es similar a un histograma, pero utiliza líneas para conectar los puntos correspondientes a las frecuencias de los datos. Es útil para ver la forma de la distribución de una variable continua.

##### Ejemplo

In [None]:

# Crear un DataFrame con datos continuos de temperaturas
data = {'Temperatura (°C)': [15.1, 15.3, 15.6, 15.8, 16.0, 16.1, 16.3, 16.3, 16.4, 16.4, 16.4, 16.7, 16.9, 17.0, 17.1, 17.3, 17.5, 17.6, 17.7, 17.9, 18.0, 18.2, 18.3, 18.5]}
df = pd.DataFrame(data)

# Crear los "bins" o intervalos
bins = [15, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19]
frequencias, bins_edges = pd.cut(df['Temperatura (°C)'], bins=bins, retbins=True)

# Calcular la frecuencia de los datos en cada bin
frecuencias_val = frequencias.value_counts(sort=False)

# Obtener los puntos medios de cada intervalo (para la representación continua)
bins_mid = [0.5 * (bins_edges[i] + bins_edges[i+1]) for i in range(len(bins_edges) - 1)]

# Crear el polígono de frecuencias
plt.plot(bins_mid, frecuencias_val, marker='o', linestyle='-')
plt.title('Polígono de frecuencias de temperaturas continuas')
plt.xlabel('Temperatura (°C)')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()


### Gráfico de series temporales

Un **gráfico de series temporales** muestra cómo varía una cantidad a lo largo del tiempo. Se utiliza para observar tendencias en datos que dependen del tiempo, como las temperaturas o las mediciones de sensores.

##### Ejemplo

In [None]:

# Crear DataFrame con datos simulados de temperaturas medidas anualmente
data = {'Año': list(range(2000, 2020)),
        'Temperatura (°C)': [14.5, 14.7, 14.6, 14.8, 14.9, 15.0, 15.1, 15.3, 15.2, 15.4, 15.6, 15.7, 15.8, 16.0, 16.1, 16.3, 16.2, 16.4, 16.5, 16.6]}
df = pd.DataFrame(data)

# Crear un gráfico de series temporales
plt.plot(df['Año'], df['Temperatura (°C)'], marker='o')
plt.title('Serie temporal de temperaturas (2000-2019)')
plt.xlabel('Año')
plt.ylabel('Temperatura (°C)')
plt.show()


## Ejercicios prácticos

Estos ejercicios te permitirán poner en práctica los conceptos básicos de Python que hemos visto en el Laboratorio 2.

### Ejercicio 1: Estadísticos principales sobre datos de acelaración de partículas

Se ha realizado un experimento midiendo la aceleración de varias partículas (en m/s²) bajo distintas condiciones. A continuación, se proporciona una tabla con los resultados:

| Partícula | Aceleración (m/s²) |
|-----------|--------------------|
| 1         | 3.5                |
| 2         | 4.1                |
| 3         | 3.8                |
| 4         | 4.0                |
| 5         | 3.9                |
| 6         | 4.2                |
| 7         | 3.7                |
| 8         | 4.3                |
| 9         | 3.6                |
| 10        | 4.0                |

Crea un DataFrame con estos datos y calcula:
1. La media y mediana de las aceleraciones.
2. Los cuartiles y deciles.
3. La desviación típica y la varianza.

### Ejercicio 2: Importar y graficar datos sobre proyectiles

Se ha realizado un experimento para medir la velocidad de varios proyectiles (en m/s) y se ha clasificado el material de los proyectiles (plástico, metal, madera). Se pide:
1. Importar los datos desde un archivo CSV llamado `proyectiles.csv`.
2. Generar un gráfico de barras que muestre la frecuencia de cada tipo de material.
3. Calcular la velocidad media de los proyectiles por tipo de material.

### Ejercicio 3: Graficar datos sobre temperaturas medias

Dispones de datos de temperaturas medidas anualmente desde 1900 hasta el 2000 en el archivo CSV llamado `temperaturas.csv`. Se te pide realizar lo siguiente:
1. Calcular la media de las temperaturas para los años **antes de 1950** y para los años **desde 1950**.
2. Graficar la evolución de las temperaturas a lo largo del tiempo como una serie temporal.