# Introducción a la Ciencia de Datos

## 1. Qué es la Ciencia de Datos

> Por un largo tiempo pensé que era un estadístico interesado en las inferencias de lo particular a lo general. Pero según he visto la estadística matemática evolucionar, he tenido motivo para reflexionar y dudar... En resumidas cuentas he llegado a sentir que mi interés central está en el **análisis de datos**, que en mi entendimiento incluye, entre otras cosas: procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, maneras de planificar la recolección de datos para que su análisis sea más fácil, preciso o exacto, y toda la maquinaria y resultados de la estadística (matemática) que aplica para el análisis de datos.
> <div align="right">(John W. Tukey - 1962)</div>

### Como combinación de aptitudes
- **Estadística** Para analizar y explorar conjuntos de datos, visualizarlos, y probar hipótesis en ellos. 
- **Programación** Para el diseño y análsis de algoritmos que escalen bien con la cantidad de datos; extracción procesamiento automático de datos; técnicas de aprendizaje automático.
- **Conocimiento de dominio** De la ciencia o negocio en donde se trate de aplicar la ciencia de datos provienen los retos que hay que enfrentar así como los métodos para evaluar el éxito sobre estos mismos.
- **Comunicación** Para entender los problemas de dominio y presentar resultados de forma efectiva.

### Como paradigma científico
- **Ciencia experimental** Basada en el razonamiento inductivo; se registran y varían las condiciones en las que ocurre un fenómeno para su posible reproducción.
- **Ciencia teórica** Basada en el razonamiento deductivo; se proponen modelos matemáticos (ecuaciones elegantes) que permiten explicar o predecir fenómenos.
- **Ciencia computacional** Se realizan simulaciones computarizadas de los fenómenos para tratar de entenderlos y hacer predicciones sobre ellos. Estas simulaciones están basadas en modelos matemáticos o computacionales (programas con reglas simples).
- **Ciencia basada en datos** Se hace un uso intensivo de los datos para crear sistemas de predicción efectivos aunque posiblemente carentes de interpretación. En esencia, los modelos son los conjuntos de datos en sí mismos.

## 2. Taxonomía de datos

### Escalas de medición

Escala       |Qué mide                |Operaciones                |Ejemplos 
------------:|------------------------|---------------------------|--------
**Nominal**  |Clasificación, membresía|$=$, $\ne$, agrupar, contar|Colores, especies
**Ordinal**  |Comparación, nivel      |$<$, $>$, ordenar          |Grado de estudios, niv. socioeconómico
**Intervalo**|Diferencia, afinidad    |$+$, $-$, promedio         |Fechas, temperatura (°C)
**Razón**    |Magnitud, cantidad      |$\times$, $\div$           |Distancia, masa, duración, ángulo, temperatura (°K)

- Los datos booleanos (Sí/No) son usualmente considerados nominales.
- Una famosa escala ordinal es la **escala de Likert**, usada comunmente en encuestas:
    - *Totalmente en desacuerdo*
    - *En desacuerdo*
    - *Ni de acuerdo ni en desacuerdo*
    - *De acuerdo*
    - *Totalmente de acuerdo*
- Las escalas de razón se denominan así porque existe un punto de referencia absoluto (el cero) de manera que cualesquiera dos datos en esta escala se pueden expresar como *razón* la una de la otra.

### Modelo de datos
- Los **datos estructurados** son aquellos que están organizados en tablas, como los que se suelen encontrar en bases de datos relacionales y hojas de cálculo.
- Los **datos semiestructurados** no se pueden organizar en tablas pero sí preservan una estructura semántica; por ejemplo, las páginas web están escritas en HTML, con marcas que identifican listas, tablas, títulos, etc.
- Los **datos sin estructura** no poseen información semántica; ejemplos: imágenes, sonidos, videos, y texto plano.

## 3. Representación de tablas en Python

En la práctica los datos estructurados se organizan en tablas donde cada renglón representa una **observación** y cada columna una **variable**. Ejemplo:

|Nombre |Fecha     |Peso (kg)|Score    |Color|
|-------|----------|---------|---------|-----|
|Adrián |2018-09-27|30       |Pasivo   |Azul |
|Beatriz|2013-03-17|40       |Promotor |Rojo |
|Carlos |NA        |83       |Detractor|Verde|
|Daniela|2014-12-25|29       |Pasivo   |Café |
|Ernesto|2090-01-01|50       |NA       |Negro|

En el contexto de las bases de datos a las observaciones se les llama **registros** y a las variables **campos**. Para su representación en Python, una tabla se puede entender como una colección de renglones o columnas.

### Representación por renglones

In [1]:
import datetime
fecha = datetime.datetime.fromisoformat

# Crear una tabla
tabla_renglones = [
    ('Adrián', fecha('2018-09-27'), 30, 'Pasivo', 'Azul' ),
    ('Beatriz', fecha('2013-03-17'), 40, 'Promotor', 'Rojo'),
    ('Carlos', None, 83, 'Detractor', 'Verde'),
    ('Daniela', fecha('2014-12-25'), 29, 'Pasivo', 'Café'),
    ('Ernesto', fecha('2090-01-01'), 50, None, 'Negro'),
]

# Buscar un registro particular:
for registro in tabla_renglones:
    if registro[0] == 'Carlos':
        break
else:
    raise KeyError('Registro no encontrado')

columnas = ['Nombre', 'Fecha', 'Peso (kg)', 'Score', 'Color']
for col, val in zip(columnas, registro):
    print(f'{col}: {str(val)}')

Nombre: Carlos
Fecha: None
Peso (kg): 83
Score: Detractor
Color: Verde


### Representación por columnas
La representación como colección de columnas es mejor si pretendemos hacer análsis sobre las mismas, como calcular promedios, graficar distribuciones, etc.

In [2]:
# Crear la tabla
tabla_columnas = {
    'Nombre': ['Adrián', 'Beatriz', 'Carlos', 'Daniela', 'Ernesto'],
    'Fecha': [fecha('2018-09-27'), fecha('2013-03-17'),
              None, fecha('2014-12-25'), fecha('2090-01-01')],
    'Peso (kg)': [30, 40, 83, 29, 50],
    'Promotor': ['Pasivo', 'Promotor', 'Detractor', 'Pasigo', None],
    'Color': ['Azul', 'Rojo', 'Verde', 'Café', 'Negro']
}

# Analizar la columna Peso (kg)
columna = tabla_columnas['Peso (kg)']
print('Registros:', len(columna))
print('Peso mínimo:', min(columna))
print('Peso promedio:', sum(columna)/len(columna))
print('Peso máximo:', max(columna))

Registros: 5
Peso mínimo: 29
Peso promedio: 46.4
Peso máximo: 83


### Uso de pandas
La biblioteca [pandas][1] está dedicada al análisis de datos en Python, y su característica fundamental es que provee una estructura de datos, llamada *DataFrame*, para representar tablas de forma eficiente y permite hacer operaciones avanzadas con ellas.

[1]:https://pandas.pydata.org/

In [3]:
# Por convención se importa pandas como pd
import pandas as pd

# Mandamos la representación por columnas al método constructor
tabla = pd.DataFrame(tabla_columnas)
tabla

Unnamed: 0,Nombre,Fecha,Peso (kg),Promotor,Color
0,Adrián,2018-09-27,30,Pasivo,Azul
1,Beatriz,2013-03-17,40,Promotor,Rojo
2,Carlos,NaT,83,Detractor,Verde
3,Daniela,2014-12-25,29,Pasigo,Café
4,Ernesto,2090-01-01,50,,Negro


In [4]:
seleccion = (tabla['Nombre'] == 'Carlos')
tabla[seleccion]

Unnamed: 0,Nombre,Fecha,Peso (kg),Promotor,Color
2,Carlos,NaT,83,Detractor,Verde


In [5]:
tabla['Peso (kg)'].describe()

count     5.000000
mean     46.400000
std      22.165288
min      29.000000
25%      30.000000
50%      40.000000
75%      50.000000
max      83.000000
Name: Peso (kg), dtype: float64

In [6]:
# Seleccionar columnas
tabla[['Nombre', 'Fecha']]

Unnamed: 0,Nombre,Fecha
0,Adrián,2018-09-27
1,Beatriz,2013-03-17
2,Carlos,NaT
3,Daniela,2014-12-25
4,Ernesto,2090-01-01


In [7]:
# Seleccionar renglones
seleccion = (tabla['Peso (kg)'] < 50)
tabla[seleccion]

Unnamed: 0,Nombre,Fecha,Peso (kg),Promotor,Color
0,Adrián,2018-09-27,30,Pasivo,Azul
1,Beatriz,2013-03-17,40,Promotor,Rojo
3,Daniela,2014-12-25,29,Pasigo,Café


In [8]:
# Combinación de condicionales con operadores booleanos
tabla[~(tabla['Peso (kg)'] < 50) | (tabla['Promotor'] == 'Promotor')]

Unnamed: 0,Nombre,Fecha,Peso (kg),Promotor,Color
1,Beatriz,2013-03-17,40,Promotor,Rojo
2,Carlos,NaT,83,Detractor,Verde
4,Ernesto,2090-01-01,50,,Negro


In [9]:
# Procesamiento de columnas
tabla['Peso (lb)'] = tabla['Peso (kg)']*2.20462
tabla

Unnamed: 0,Nombre,Fecha,Peso (kg),Promotor,Color,Peso (lb)
0,Adrián,2018-09-27,30,Pasivo,Azul,66.1386
1,Beatriz,2013-03-17,40,Promotor,Rojo,88.1848
2,Carlos,NaT,83,Detractor,Verde,182.98346
3,Daniela,2014-12-25,29,Pasigo,Café,63.93398
4,Ernesto,2090-01-01,50,,Negro,110.231
