# Análisis de Datos en Python

Este cuaderno introduce los fundamentos teóricos y prácticos del **Análisis de Datos** utilizando el lenguaje **Python**.

Temas:
- Introducción a Python para análisis de datos
- Conceptos básicos
- Obtención y depuración de datos
- Exploración de datos
- Modelado e interpretación

## Introducción a Python para Análisis de Datos
Python es un lenguaje interpretado, de tipado dinámico y multiparadigma. En el contexto del análisis de datos, se apoya en librerías como:
- **NumPy**: operaciones numéricas vectorizadas.
- **Pandas**: manipulación y transformación de datos.
- **Matplotlib / Seaborn**: visualización estadística.
- **Scikit-learn**: modelado y aprendizaje automático.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

print('Librerías cargadas correctamente.')

## Conceptos Básicos de Python para Datos

Python permite definir variables, estructuras de datos y funciones que facilitan el procesamiento de información.

Ejemplo:
- **Variables**: contenedores de información.
- **Listas y Diccionarios**: estructuras clave para colecciones de datos.
- **Funciones**: bloques de código reutilizables.
- **DataFrames (pandas)**: estructura principal para manipular datos tabulares.

In [None]:
nombre = "Ana"
edades = [23, 35, 29]
persona = {"nombre": "Luis", "edad": 35}

print(nombre)
print(edades)
print(persona)

## Obtención y Depuración de Datos

El análisis de datos inicia con la obtención y limpieza de la información. Para este ejemplo, se usará el dataset **Titanic**, disponible en Seaborn.

In [None]:
df = sns.load_dataset('titanic')
df.head()

In [None]:
# Información general del dataset
df.info()

# Limpieza: eliminar columnas irrelevantes y valores nulos
df = df.drop(columns=['deck', 'embark_town', 'alive'])
df = df.dropna()
df.head()

## Exploración de Datos

El análisis exploratorio permite comprender las distribuciones, relaciones y valores atípicos. Se utiliza estadística descriptiva y visualización de datos.

In [None]:
df.describe()

In [None]:
sns.countplot(x='survived', data=df)
plt.title('Distribución de Supervivencia en el Titanic')
plt.show()

In [None]:
sns.boxplot(x='survived', y='age', data=df)
plt.title('Distribución de Edad según Supervivencia')
plt.show()

## Modelado e Interpretación de Datos

Una de las tareas más comunes es el modelado predictivo. En este ejemplo, se emplea una **regresión lineal** para predecir la edad $y$ a partir de la tarifa ($x_1$) y del número de hermanos/esposos a bordo ($x_2$).

El modelo se define como:
\begin{equation}
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon
\end{equation}
donde:
- $y$: variable dependiente (edad),
- $x_1, x_2$: variables independientes,
- $\beta_0, \beta_1, \beta_2$: coeficientes estimados,
- $\varepsilon$: término de error aleatorio.

In [None]:
X = df[['fare', 'sibsp']]
y = df['age']

# División de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print('Coeficientes:', model.coef_)
print('Intercepto:', model.intercept_)
print('Error cuadrático medio:', mean_squared_error(y_test, y_pred))
print('R²:', r2_score(y_test, y_pred))

### Interpretación

El **coeficiente de determinación $R^2$** evalúa la proporción de la varianza de la variable dependiente que el modelo explica.

\begin{equation}
R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}
\end{equation}

Donde $y_i$ son los valores reales, $\hat{y_i}$ las predicciones y $\bar{y}$ la media de los valores observados.

Interpretación general:
- Si $R^2 \approx 1$, el modelo ajusta bien los datos.
- Si $R^2 \approx 0$, el modelo explica poca variabilidad.
- Este ejemplo tiene fines ilustrativos para introducir el flujo básico de un análisis predictivo en Python.