# üìä An√°lisis de Datos en Python

Este tutorial introduce los conceptos esenciales del an√°lisis de datos usando **Python**.

Temas:
- Introducci√≥n a Python
- Conceptos b√°sicos
- Obtenci√≥n y depuraci√≥n de datos
- Exploraci√≥n de datos
- Modelado e interpretaci√≥n


## üîπ Introducci√≥n a Python
Python es un lenguaje de programaci√≥n muy usado en **Data Science** gracias a librer√≠as como:
- **pandas**: manipulaci√≥n de datos.
- **numpy**: operaciones num√©ricas.
- **matplotlib / seaborn**: visualizaci√≥n.
- **scikit-learn**: machine learning.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

print('Librer√≠as cargadas con √©xito ‚úÖ')

## üîπ Conceptos B√°sicos de Python para Datos
- **Variables**: almacenar informaci√≥n.
- **Listas y Diccionarios**: colecciones de datos.
- **Funciones**: bloques de c√≥digo reutilizables.
- **DataFrames (pandas)**: estructura principal en an√°lisis de datos.

In [None]:
# Variables y estructuras
nombre = "Ana"
edades = [23, 35, 29]
persona = {"nombre":"Luis", "edad":35}

print(nombre)
print(edades)
print(persona)

## üîπ Obtenci√≥n y Depuraci√≥n de Datos
Trabajaremos con un dataset de ejemplo: **Titanic** (sobrevivientes del naufragio).

In [None]:
df = sns.load_dataset('titanic')
df.head()

In [None]:
# Informaci√≥n general
df.info()

# Limpieza: eliminar columnas irrelevantes y valores nulos
df = df.drop(columns=['deck','embark_town','alive'])
df = df.dropna()
df.head()

## üîπ Exploraci√≥n de Datos
Analizamos estad√≠sticas y relaciones.

In [None]:
df.describe()


In [None]:
# Visualizaci√≥n
sns.countplot(x='survived', data=df)
plt.title('Supervivencia en el Titanic')
plt.show()

In [None]:
sns.boxplot(x='survived', y='age', data=df)
plt.title('Distribuci√≥n de Edad por Supervivencia')
plt.show()

## üîπ Modelado e Interpretaci√≥n de Datos
Ejemplo: **regresi√≥n lineal** para predecir la edad en funci√≥n de tarifa y n√∫mero de hermanos/esposos a bordo.

In [None]:
# Seleccionar variables
X = df[['fare','sibsp']]
y = df['age']

# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predicciones
y_pred = model.predict(X_test)

# Evaluaci√≥n
print("Error cuadr√°tico medio:", mean_squared_error(y_test, y_pred))
print("R¬≤:", r2_score(y_test, y_pred))

### üìå Interpretaci√≥n
- El modelo entrega un valor de **R¬≤** que indica cu√°nta varianza explica.
- Si R¬≤ ‚âà 1, el modelo es muy bueno.
- Si R¬≤ ‚âà 0, el modelo no explica bien los datos.
- Aqu√≠ es solo un ejemplo b√°sico de modelado.