# Adquisición de datos

Alan Badillo Salas (badillo.soft@hotmail.com)

## Dataframes

Un DataFrame es una estructura indexada en el eje de las filas y el eje de las columnas, equivale a una tabla o una matriz indexada.

Podemos construir un DataFrame mediante pandas de las siguientes formas.

#### Construir un DataFrame a partir de una lista de listas (matriz)

In [5]:
import pandas as pd

mat = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
] 

df = pd.DataFrame(mat)

# Muestra los primeros `n` registros, si `n` no se especifíca equivale a 5
df.head()

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


> Observa que los índices para las filas y columnas los indexa automáticamente partiendo de cero

#### Crear un DataFrame a partir de una matriz, con índices para las columnas manualmente

In [6]:
import pandas as pd

mat = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
] 

df = pd.DataFrame(mat, columns=["A", "B", "C", "D"])

df.head()

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


> Nota: A lo que referimos por `índice de columna` equivale también al nombre de la columna, es decir, a pesar del nombre de la columna, está tendrá siempre el índice numérico partiendo de cero.

#### Crear un DataFrame a partir de una matriz, definiendo los índices de fila y columna manualmente

In [9]:
import pandas as pd

mat = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
] 

df = pd.DataFrame(mat, index=["x", "y", "z"], columns=["A", "B", "C", "D"])

df.head()

Unnamed: 0,A,B,C,D
x,1,2,3,4
y,5,6,7,8
z,9,10,11,12


> Observa que ahora los índices para filas y columnas son definidos por el usuario, esto es muy útil cuándo los datos son finitos y bien conocidos.

#### Crear un DataFrame a partir de un diccionario de listas

Un diccionario de listas es un diccionario, dónde cada clave contiene una lista con los valores asociados a dicha clave para cada una de las filas, es decir, es un diccionario de valores transversales, dónde cada clave equivale a una columna, y cada valor de la clave es una lista con los valores de la columna para cada fila.

In [20]:
import pandas as pd

data = {
    "A": [1, 3, 5, 7, 9],
    "B": [2, 4, 6, 8, 10],
    "C": ["h", "m", "m", "h", "h"]
}

df = pd.DataFrame(data)

df.head()

Unnamed: 0,A,B,C
0,1,2,h
1,3,4,m
2,5,6,m
3,7,8,h
4,9,10,h


#### Crear un DataFrame a partir de una lista de diccionarios

Una lista de lista de diccionarios, podemos asociarla a una lista de frames, dónde cada frame equivale a un diccionario de datos, con claves estándares (clave-valor/primitivo).

In [15]:
import pandas as pd

data = [
    {
        "A": 1,
        "B": 2,
        "C": "h"
    },
    {
        "A": 3,
        "B": 4,
        "C": "m"
    },
    {
        "A": 5,
        "B": 6,
        "C": "m"
    },
    {
        "A": 7,
        "B": 8,
        "C": "h"
    },
    {
        "A": 9,
        "B": 10,
        "C": "h"
    }
]

df = pd.DataFrame(data)

df.head()

Unnamed: 0,A,B,C
0,1,2,h
1,3,4,m
2,5,6,m
3,7,8,h
4,9,10,h


#### Ejemplo: Construir un DataFrame con datos simulados

En el siguiente ejemplo vamos a generar una lista de diccionarios, dónde cada diccionario contendrá los datos de un experimento aleatorio (temperatura, ph, tiempo de reacción).

In [23]:
import pandas as pd
from random import uniform

# Devuelve un diccionario con los datos de un experimento aleatorio
def experimento_aleatorio():
    return {
        "Temperatura": uniform(0, 60),
        "PH": uniform(-7, 7),
        "Tiempo-Reacción": uniform(30, 240),
    }

data = [experimento_aleatorio() for i in range(5)]
# data = list(map(expermiento_aleatorio, range(5)))

df = pd.DataFrame(data)

print(data)

print(df)

[{'Temperatura': 19.376307081448886, 'PH': -6.951222695909904, 'Tiempo-Reacción': 165.35986183235815}, {'Temperatura': 37.427046191529975, 'PH': -1.52272372178171, 'Tiempo-Reacción': 54.15756552375299}, {'Temperatura': 54.06487158562431, 'PH': 4.447530932162918, 'Tiempo-Reacción': 171.33539128547017}, {'Temperatura': 42.34721499347019, 'PH': 3.561658592659551, 'Tiempo-Reacción': 139.0230845479463}, {'Temperatura': 1.5590649626150088, 'PH': 3.2442162472966913, 'Tiempo-Reacción': 111.66601829492564}]
         PH  Temperatura  Tiempo-Reacción
0 -6.951223    19.376307       165.359862
1 -1.522724    37.427046        54.157566
2  4.447531    54.064872       171.335391
3  3.561659    42.347215       139.023085
4  3.244216     1.559065       111.666018


### Cargar un DataFrame desde un CSV

### Cargar un DataFrame desde un Excel

### Cargar un DataFrame desde una Base de Datos MySQL

## Operaciones con DataFrames

### Seleccionar una Columna (Serie)

### Seleccionar multiples Columnas (DataFrame')

### Computar una nueva Columna a partir de otras (DataFrame+)

### Eliminar una Columna (DataFrame-)

### Seleccionar una Fila (DataFrame[1])

### Seleccionar un rango de Filas (DataFrame[a:b])

### Ordenar Filas (DataFrame'->)

### Tomar una muestra aleatoria de Filas (DataFrame'--)

## Mezclar DataFrames

### Left Join

### Right Join

### Inner Join

### Full Join