# üìä Introducci√≥n al An√°lisis de Datos con SQL y Python

Este notebook es un **tutorial pr√°ctico** para introducir conceptos clave del an√°lisis de datos, integrando SQL y Python.

Temas que abordaremos:
- Tipos y estructura de datos
- Etapas del ciclo de vida de los datos
- Las seis fases del an√°lisis de datos
- T√©cnicas y Herramientas para an√°lisis de datos
- Transformaci√≥n y extracci√≥n de datos con SQL
- Datos sesgados e imparciales
- Importancia de la integridad de los datos
- Tama√±o de la muestra y confiabilidad
- T√©cnicas de limpieza, importaci√≥n, ordenaci√≥n
- Visualizaci√≥n de datos en Python


## üîπ Tipos y Estructura de Datos
- **Num√©ricos**: enteros, decimales.
- **Categ√≥ricos**: etiquetas, clasificaciones.
- **Texto**: cadenas largas (ej. rese√±as).
- **Tiempo/Fechas**: timestamps.
- **Estructurados**: tablas, bases SQL.
- **No estructurados**: im√°genes, audio, texto libre.

In [1]:
import pandas as pd

data = pd.DataFrame({
    'ID': [1,2,3],
    'Nombre': ['Ana','Luis','Marta'],
    'Edad': [23, 35, 29],
    'Fecha_registro': pd.to_datetime(['2021-01-01','2021-03-15','2021-07-30'])
})
data

Unnamed: 0,ID,Nombre,Edad,Fecha_registro
0,1,Ana,23,2021-01-01
1,2,Luis,35,2021-03-15
2,3,Marta,29,2021-07-30


## üîπ Etapas del Ciclo de Vida de los Datos
1. **Generaci√≥n/Obtenci√≥n**
2. **Almacenamiento**
3. **Procesamiento**
4. **An√°lisis**
5. **Visualizaci√≥n/Comunicaci√≥n**
6. **Toma de decisiones**

## üîπ Las Seis Fases del An√°lisis de Datos
1. Definici√≥n de objetivos.
2. Recolecci√≥n de datos.
3. Limpieza y preparaci√≥n.
4. An√°lisis exploratorio.
5. Modelado.
6. Comunicaci√≥n de resultados.

## üîπ Herramientas para An√°lisis de Datos
- **SQL**: extracci√≥n y transformaci√≥n.
- **Python (pandas, numpy)**: an√°lisis y manipulaci√≥n.
- **Matplotlib / Seaborn**: visualizaci√≥n.
- **Scikit-learn**: modelado y machine learning.

## üîπ Transformaci√≥n de Datos con SQL
Ejemplo usando **SQLite en memoria**.

In [2]:
import sqlite3

# Crear base de datos en memoria
conn = sqlite3.connect(':memory:')
cur = conn.cursor()

# Crear tabla
cur.execute('''CREATE TABLE clientes (
               id INTEGER, nombre TEXT, edad INTEGER, gasto REAL)''')

cur.executemany('INSERT INTO clientes VALUES (?,?,?,?)', [
    (1,'Ana',23,120.5),
    (2,'Luis',35,80.0),
    (3,'Marta',29,150.75)
])
conn.commit()

# Query
pd.read_sql_query("SELECT * FROM clientes WHERE gasto > 100", conn)

Unnamed: 0,id,nombre,edad,gasto
0,1,Ana,23,120.5
1,3,Marta,29,150.75


## üîπ Datos Sesgados e Imparciales
- **Sesgo**: cuando los datos no representan a toda la poblaci√≥n.
- Ejemplo: encuesta solo en una ciudad peque√±a para representar a todo un pa√≠s.
- **Datos imparciales**: muestra balanceada y representativa.

## üîπ Importancia de la Integridad de los Datos
- Evitar duplicados.
- Mantener consistencia en formatos.
- Validar registros incompletos.

## üîπ Tama√±o de la Muestra y Confiabilidad
- Tama√±o insuficiente ‚Üí baja confiabilidad.
- Tama√±o excesivo ‚Üí costo alto.
- Se eval√∫a con m√©tricas estad√≠sticas (error est√°ndar, intervalos de confianza).

## üîπ T√©cnicas de Limpieza de Datos
- Eliminar duplicados.
- Imputaci√≥n de valores faltantes.
- Normalizaci√≥n y estandarizaci√≥n.

In [3]:
df = pd.DataFrame({
    'Nombre': ['Ana','Luis','Luis','Marta'],
    'Edad': [23,35,None,29],
    'Gasto': [120.5,80.0,80.0,None]
})
print('Antes de limpieza:\n', df)

# Eliminar duplicados
df = df.drop_duplicates()

# Imputar valores faltantes
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())
df['Gasto'] = df['Gasto'].fillna(df['Gasto'].mean())

print('\nDespu√©s de limpieza:\n', df)

Antes de limpieza:
   Nombre  Edad  Gasto
0    Ana  23.0  120.5
1   Luis  35.0   80.0
2   Luis   NaN   80.0
3  Marta  29.0    NaN

Despu√©s de limpieza:
   Nombre  Edad  Gasto
0    Ana  23.0  120.5
1   Luis  35.0   80.0
2   Luis  29.0   80.0
3  Marta  29.0   93.5


## üîπ Ordenaci√≥n de Datos

In [4]:
df.sort_values(by='Gasto', ascending=False)

Unnamed: 0,Nombre,Edad,Gasto
0,Ana,23.0,120.5
3,Marta,29.0,93.5
1,Luis,35.0,80.0
2,Luis,29.0,80.0


## üîπ Extracci√≥n de Datos con SQL

In [5]:
pd.read_sql_query("SELECT nombre, gasto FROM clientes ORDER BY gasto DESC", conn)

Unnamed: 0,nombre,gasto
0,Marta,150.75
1,Ana,120.5
2,Luis,80.0


## üîπ Visualizaci√≥n de Datos

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.barplot(x='Nombre', y='Gasto', data=df)
plt.title('Gasto por Cliente')
plt.show()