#  Análisis de Datos en Python

Este tutorial introduce los conceptos esenciales del análisis de datos usando **Python**.

Temas:
- Introducción a Python
- Conceptos básicos
- Obtención y depuración de datos
- Exploración de datos
- Modelado e interpretación


##  Introducción a Python
Python es un lenguaje de programación muy usado en **Data Science** gracias a librerías como:
- **pandas**: manipulación de datos.
- **numpy**: operaciones numéricas.
- **matplotlib / seaborn**: visualización.
- **scikit-learn**: machine learning.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

print('Librerías cargadas con éxito')

##  Conceptos Básicos de Python para Datos
- **Variables**: almacenar información.
- **Listas y Diccionarios**: colecciones de datos.
- **Funciones**: bloques de código reutilizables.
- **DataFrames (pandas)**: estructura principal en análisis de datos.

In [None]:
# Variables y estructuras
nombre = "Ana"
edades = [23, 35, 29]
persona = {"nombre":"Luis", "edad":35}

print(nombre)
print(edades)
print(persona)

## Obtención y Depuración de Datos
Trabajaremos con un dataset de ejemplo: **Titanic** (sobrevivientes del naufragio).

In [None]:
df = sns.load_dataset('titanic')
df.head()

In [None]:
# Información general
df.info()

# Limpieza: eliminar columnas irrelevantes y valores nulos
df = df.drop(columns=['deck','embark_town','alive'])
df = df.dropna()
df.head()

## Exploración de Datos
Analizamos estadísticas y relaciones.

In [None]:
df.describe()


In [None]:
# Visualización
sns.countplot(x='survived', data=df)
plt.title('Supervivencia en el Titanic')
plt.show()

In [None]:
sns.boxplot(x='survived', y='age', data=df)
plt.title('Distribución de Edad por Supervivencia')
plt.show()

##  Modelado e Interpretación de Datos
Ejemplo: **regresión lineal** para predecir la edad en función de tarifa y número de hermanos/esposos a bordo.

In [None]:
# Seleccionar variables
X = df[['fare','sibsp']]
y = df['age']

# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predicciones
y_pred = model.predict(X_test)

# Evaluación
print("Error cuadrático medio:", mean_squared_error(y_test, y_pred))
print("R²:", r2_score(y_test, y_pred))

###  Interpretación
- El modelo entrega un valor de **R²** que indica cuánta varianza explica.
- Si R² ≈ 1, el modelo es muy bueno.
- Si R² ≈ 0, el modelo no explica bien los datos.
- Aquí es solo un ejemplo básico de modelado.