# Introducción al Análisis de Datos
### Duración: 80 minutos
### Nivel: Introductorio
Este notebook está diseñado para ofrecer una introducción al análisis de datos, cubriendo lo esencial de manipulación de datos utilizando pandas y visualización con matplotlib.
Además, introduciremos conceptos de **estadística descriptiva**, los cuales son fundamentales para comprender cómo resumir y analizar los datos de manera efectiva.


## 1. Estadística Descriptiva
### Objetivo:
Introducir los conceptos básicos de estadística descriptiva y su utilidad en el análisis de datos. Aprender a calcular y comprender las medidas de tendencia central, dispersión y posición, utilizando funciones en Python.

### Puntos clave a tratar:
La **estadística descriptiva** resume y describe las características más importantes de un conjunto de datos. Las medidas fundamentales incluyen:

**Medidas de tendencia central**:
- **Media (Promedio)**: La media es la suma de todos los valores dividida por el número total de observaciones. 

  Fórmula:
  \[\mu = rac{1}{n} \sum_{i=1}^{n} x_i\]

- **Mediana**: La mediana es el valor central cuando los datos están ordenados. Si el número de observaciones es impar, es el valor del medio; si es par, es el promedio de los dos valores centrales.
- **Moda**: La moda es el valor que más se repite en el conjunto de datos.

**Medidas de dispersión**:
- **Desviación estándar**: Mide la dispersión de los datos respecto a la media. La fórmula es:

  \[\sigma = \sqrt{rac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}\]

- **Rango**: El rango es la diferencia entre el valor máximo y el mínimo de un conjunto de datos.
- **Varianza**: La varianza es el cuadrado de la desviación estándar. Fórmula:

  \[\sigma^2 = rac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2\]


**Medidas de posición**:
- **Cuartiles**: Los cuartiles dividen el conjunto de datos en cuatro partes iguales.
- **Percentiles**: Los percentiles dividen el conjunto de datos en 100 partes iguales.

#### Funciones en Python:
- **`mean()`**: Calcula la media.
- **`median()`**: Calcula la mediana.
- **`mode()`**: Calcula la moda.
- **`std()`**: Calcula la desviación estándar.
- **`quantile()`**: Calcula los cuartiles.
- **`describe()`**: Resumen estadístico de un conjunto de datos.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


## 2. Introducción a Pandas
Pandas es una librería que permite la manipulación y análisis de datos en estructuras como DataFrames y Series.

In [2]:
# Crear un DataFrame simple
data = {
    'Nombre': ['Juan', 'Ana', 'Carlos', 'Maria'],
    'Edad': [25, 30, 22, 28],
    'Género': ['M', 'F', 'M', 'F'],
    'Salario': [40000, 50000, 45000, 48000]
}

df = pd.DataFrame(data)
print('\nDataFrame creado con pandas:')
print(df)

# Operaciones básicas con pandas
print('\nEstadísticas descriptivas:')
print(df.describe())

## 3. Visualización de Datos con Matplotlib
La visualización es clave para comprender mejor los datos.
Vamos a crear gráficos simples para explorar estos datos.

In [3]:
# 4.1 Gráfico de barras (Ejemplo: Salario por género)
df.groupby('Género')['Salario'].mean().plot(kind='bar', title='Salario promedio por Género')
plt.ylabel('Salario Promedio')
plt.show()

# 4.2 Gráfico de dispersión (Ejemplo: Edad vs Salario)
plt.scatter(df['Edad'], df['Salario'])
plt.title('Edad vs Salario')
plt.xlabel('Edad')
plt.ylabel('Salario')
plt.show()

## 4. Actividad práctica (30 minutos)
Vamos a explorar un conjunto de datos real y realizar visualizaciones.

In [4]:
# Cargamos el conjunto de datos Titanic
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df_titanic = pd.read_csv(url)

# 5.1 Exploramos el dataset
print('\nPrimeras filas del dataset Titanic:')
print(df_titanic.head())

# 5.2 Estadísticas descriptivas
print('\nEstadísticas descriptivas del Titanic:')
print(df_titanic.describe())

# 5.3 Visualización de datos
# 5.3.1 Histograma de la edad de los pasajeros
df_titanic['Age'].dropna().plot(kind='hist', bins=20, title='Distribución de la Edad de los Pasajeros')
plt.xlabel('Edad')
plt.show()

# 5.3.2 Boxplot
df_titanic['Age'].dropna().plot(kind='box', title='Boxplot de la Edad de los Pasajeros')
plt.ylabel('Edad')
plt.show()

# 5.3.3 Gráfico de Tendencia
df_titanic['Age'].dropna().plot(kind='line', title='Tendencia de la Edad de los Pasajeros')
plt.xlabel('Índice')
plt.ylabel('Edad')
plt.show()

# 5.3.4 Gráfico de Barras
df_titanic['Sex'].value_counts().plot(kind='bar', title='Distribución por Sexo')
plt.ylabel('Número de pasajeros')
plt.show()

## 6. Resumen y Cierre (10 minutos)
En este curso introductorio, hemos cubierto:
- Qué es el análisis de datos.
- Tipos de datos y estructuras básicas.
- Manipulación de datos con pandas.
- Creación de gráficos simples con matplotlib.
- Actividad práctica utilizando el dataset Titanic.
La visualización de datos es una herramienta clave para comprender patrones y tendencias. ¡Sigue explorando!