# Adquisición de datos

Alan Badillo Salas (badillo.soft@hotmail.com)

## Dataframes

Un DataFrame es una estructura indexada en el eje de las filas y el eje de las columnas, equivale a una tabla o una matriz indexada.

Podemos construir un DataFrame mediante pandas de las siguientes formas.

#### Construir un DataFrame a partir de una lista de listas (matriz)

In [5]:
import pandas as pd

mat = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
] 

df = pd.DataFrame(mat)

# Muestra los primeros `n` registros, si `n` no se especifíca equivale a 5
df.head()

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


> Observa que los índices para las filas y columnas los indexa automáticamente partiendo de cero

#### Crear un DataFrame a partir de una matriz, con índices para las columnas manualmente

In [6]:
import pandas as pd

mat = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
] 

df = pd.DataFrame(mat, columns=["A", "B", "C", "D"])

df.head()

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


> Nota: A lo que referimos por `índice de columna` equivale también al nombre de la columna, es decir, a pesar del nombre de la columna, está tendrá siempre el índice numérico partiendo de cero.

#### Crear un DataFrame a partir de una matriz, definiendo los índices de fila y columna manualmente

In [9]:
import pandas as pd

mat = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
] 

df = pd.DataFrame(mat, index=["x", "y", "z"], columns=["A", "B", "C", "D"])

df.head()

Unnamed: 0,A,B,C,D
x,1,2,3,4
y,5,6,7,8
z,9,10,11,12


> Observa que ahora los índices para filas y columnas son definidos por el usuario, esto es muy útil cuándo los datos son finitos y bien conocidos.

#### Crear un DataFrame a partir de un diccionario de listas

Un diccionario de listas es un diccionario, dónde cada clave contiene una lista con los valores asociados a dicha clave para cada una de las filas, es decir, es un diccionario de valores transversales, dónde cada clave equivale a una columna, y cada valor de la clave es una lista con los valores de la columna para cada fila.

In [20]:
import pandas as pd

data = {
    "A": [1, 3, 5, 7, 9],
    "B": [2, 4, 6, 8, 10],
    "C": ["h", "m", "m", "h", "h"]
}

df = pd.DataFrame(data)

df.head()

Unnamed: 0,A,B,C
0,1,2,h
1,3,4,m
2,5,6,m
3,7,8,h
4,9,10,h


#### Crear un DataFrame a partir de una lista de diccionarios

Una lista de lista de diccionarios, podemos asociarla a una lista de frames, dónde cada frame equivale a un diccionario de datos, con claves estándares (clave-valor/primitivo).

In [15]:
import pandas as pd

data = [
    {
        "A": 1,
        "B": 2,
        "C": "h"
    },
    {
        "A": 3,
        "B": 4,
        "C": "m"
    },
    {
        "A": 5,
        "B": 6,
        "C": "m"
    },
    {
        "A": 7,
        "B": 8,
        "C": "h"
    },
    {
        "A": 9,
        "B": 10,
        "C": "h"
    }
]

df = pd.DataFrame(data)

df.head()

Unnamed: 0,A,B,C
0,1,2,h
1,3,4,m
2,5,6,m
3,7,8,h
4,9,10,h


#### Ejemplo: Construir un DataFrame con datos simulados

En el siguiente ejemplo vamos a generar una lista de diccionarios, dónde cada diccionario contendrá los datos de un experimento aleatorio (temperatura, ph, tiempo de reacción).

In [23]:
import pandas as pd
from random import uniform

# Devuelve un diccionario con los datos de un experimento aleatorio
def experimento_aleatorio():
    return {
        "Temperatura": uniform(0, 60),
        "PH": uniform(-7, 7),
        "Tiempo-Reacción": uniform(30, 240),
    }

data = [experimento_aleatorio() for i in range(5)]
# data = list(map(expermiento_aleatorio, range(5)))

df = pd.DataFrame(data)

print(data)

print(df)

[{'Temperatura': 19.376307081448886, 'PH': -6.951222695909904, 'Tiempo-Reacción': 165.35986183235815}, {'Temperatura': 37.427046191529975, 'PH': -1.52272372178171, 'Tiempo-Reacción': 54.15756552375299}, {'Temperatura': 54.06487158562431, 'PH': 4.447530932162918, 'Tiempo-Reacción': 171.33539128547017}, {'Temperatura': 42.34721499347019, 'PH': 3.561658592659551, 'Tiempo-Reacción': 139.0230845479463}, {'Temperatura': 1.5590649626150088, 'PH': 3.2442162472966913, 'Tiempo-Reacción': 111.66601829492564}]
         PH  Temperatura  Tiempo-Reacción
0 -6.951223    19.376307       165.359862
1 -1.522724    37.427046        54.157566
2  4.447531    54.064872       171.335391
3  3.561659    42.347215       139.023085
4  3.244216     1.559065       111.666018


### Cargar un DataFrame desde un CSV

Los archivos CSV se caracterízan por ser archivos de texto plano codificados de tal forma que sus valores se encuentran separados por comas, cada línea en el archivo representará la información de una fila y cada valor separado por coma representará el valor de la columna. Usualmente la primer fila se reserva para las cabeceras o nombre de las columnas, pero no siempre es así.

Con la función `read_csv(name, ...options)` podemos leer un archivo csv desde una ruta relativa a la ejecución del programa, una ruta completa desde la unidad de disco o una ruta http para descargar el archivo desde una url.

#### Cargar un DataFrame de un CSV

In [25]:
import pandas as pd

df = pd.read_csv("ejemplo1.csv")

df.head()

Unnamed: 0,x,y,z
0,1,1,0
1,2,4,-2
2,3,9,-6
3,4,16,-12
4,5,25,-20


> Observa que el archivo `ejemplo1.csv` contiene como primer fila el nombre de las cabeceras.

#### Cargar un DataFrame de un CSV cambiando las cabeceras

Recordemos que podemos construir un DataFrame con los índices de columnas manuales para sustituir los índices dados por otros. De esta manera podemos cambiar los nombres de las columnas al cargar el CSV.

In [40]:
import pandas as pd

df = pd.read_csv("ejemplo1.csv", names=["A", "B", "C"], header=0)

df.head()

Unnamed: 0,A,B,C
0,1,1,0
1,2,4,-2
2,3,9,-6
3,4,16,-12
4,5,25,-20


> Observa que `names` recibe los nombres de las columnas, pero como ya tenía antes definido nombres, tenemos que ajustar `header=0` de tal forma que omita la primer fila de cabeceras (para usar las nuestras). 

#### Cargar un CSV sin cabeceras

Muchas veces el archivo CSV no va a contener cabeceras por lo que bastará agregar el parámetro `names=[...]` para ajustar manualmente las cabeceras.

In [41]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df.head()

Unnamed: 0,SW,SL,PW,PL,C
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### Cargar un DataFrame desde un Excel

Un archivo de excel corresponde a un "Libro de Excel" (`Workbook`) el cuál se compone de hojas de datos llamas "Hojas de Datos" (`Sheets`) y cada hoja contiene una matriz de celdas con columnas autonumeradas de la `A-Z` y más y filas de `1` hacia adelante.

Pandas nos permite recuperar hojas de datos para cargarlas en DataFrames.

#### Cargar una hoja de datos de Excel

In [49]:
import pandas as pd

h1 = pd.read_excel("ejemplo2.xlsx", sheet_name="Hoja 1")

h1.head()

Unnamed: 0,x,y,z
0,1,1,0
1,2,4,-2
2,3,9,-6
3,4,16,-12
4,5,25,-20


In [50]:
import pandas as pd

h2 = pd.read_excel("ejemplo2.xlsx", sheet_name="Hoja 2")

h2.head()

Unnamed: 0,Nombre,Edad,Sexo,Salario,RFC
0,Ana,12,M,30000,ABC
1,Beto,15,H,20000,BDE
2,Carla,23,M,12000,DEF
3,Daniel,21,H,15000,EFG
4,Eduardo,56,H,21000,FGH


#### Cargar un DataFrame de una hoja de datos de Excel cambiando los nombres de las columnas

In [51]:
import pandas as pd

h2 = pd.read_excel("ejemplo2.xlsx", names=["N", "E", "SX", "SS", "R"], sheet_name="Hoja 2")

h2.head()

Unnamed: 0,N,E,SX,SS,R
0,Ana,12,M,30000,ABC
1,Beto,15,H,20000,BDE
2,Carla,23,M,12000,DEF
3,Daniel,21,H,15000,EFG
4,Eduardo,56,H,21000,FGH


### Cargar un DataFrame desde una Base de Datos MySQL

## Operaciones con DataFrames

### Seleccionar una Columna (Serie)

Podemos seleccionar columnas por el nombre de la columna o por índice.

#### Recuperar una columna por nombre

In [53]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Recuperamos la columna SW como una serie (vector)
sw = df["SW"]

# Mostrar los primeros 5 datos
sw[:5]

0    5.1
1    4.9
2    4.7
3    4.6
4    5.0
Name: SW, dtype: float64

#### Recuperar una columna por índice

In [54]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Recuperamos todas las filas `:` de la columna `0` (la primera)
sw = df.iloc[:, 0]

# Mostrar los primeros 5 datos
sw[:5]

0    5.1
1    4.9
2    4.7
3    4.6
4    5.0
Name: SW, dtype: float64

In [55]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Recuperamos todas las filas `:` de la columna `1` (la segunda) 
sl = df.iloc[:, 1]

# Mostrar los primeros 5 datos
sl[:5]

0    3.5
1    3.0
2    3.2
3    3.1
4    3.6
Name: SL, dtype: float64

In [56]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Recuperamos todas las filas `:` de la columna `4` (la quinta)
c = df.iloc[:, 4]

# Mostrar los primeros 5 datos
c[:5]

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: C, dtype: object

### Seleccionar multiples Columnas (DataFrame')

Podemos recuperar un sub-dataframe diciendo que columnas queremos o usando nuevamente `iloc`.

#### Extraer un Sub-DataFrame con las columnas específicas

In [58]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

petal = pd.DataFrame(df, columns=["PW", "PL"])

petal.head()

Unnamed: 0,PW,PL
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2


#### Extraer un Sub-DataFrame con los índices de las columnas específicadas

In [62]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

petal = df.iloc[:, 2:4]

petal.head()

Unnamed: 0,PW,PL
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2


> Observa que en esta segunda forma, los índices de las columnas a recuperar deben ser consecutivos

In [68]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

widths = df.iloc[:, [0, 2]]

widths.head()

Unnamed: 0,SW,PW
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4


#### Encontrar el índice de las columnas

In [75]:
import pandas as pd

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

print(list(enumerate(df.columns)))

columns = dict([ (c, i) for i, c in  list(enumerate(df.columns))])

print(columns)

columns["PL"]

[(0, 'SW'), (1, 'SL'), (2, 'PW'), (3, 'PL'), (4, 'C')]
{'SW': 0, 'SL': 1, 'PW': 2, 'PL': 3, 'C': 4}


3

### Computar una nueva Columna a partir de otras (DataFrame+)

#### Usar las columnas como series de numpy

Cada columna equivale a una serie y cada serie equivale a un vector de numpy, por que podemos hacer suma/resta de series (elemento-elemento), multiplicación/división de series (elemento-elemento) o aplicar funciones de numpy y operaciones con escalares.

In [77]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# 2 * SW - PW
df["I1"] = 2 * df["SW"] - df["PW"]
# sin(SL) * cos(PL) + 100
df["I2"] = np.sin(df["SL"]) * np.cos(df["PL"]) + 100

df.head()

Unnamed: 0,SW,SL,PW,PL,C,I1,I2
0,5.1,3.5,1.4,0.2,Iris-setosa,8.8,99.656209
1,4.9,3.0,1.4,0.2,Iris-setosa,8.4,100.138307
2,4.7,3.2,1.3,0.2,Iris-setosa,8.1,99.942789
3,4.6,3.1,1.5,0.2,Iris-setosa,7.7,100.040752
4,5.0,3.6,1.4,0.2,Iris-setosa,8.6,99.566301


In [81]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df["A"] = 5

df.head()

Unnamed: 0,SW,SL,PW,PL,C,A
0,5.1,3.5,1.4,0.2,Iris-setosa,5
1,4.9,3.0,1.4,0.2,Iris-setosa,5
2,4.7,3.2,1.3,0.2,Iris-setosa,5
3,4.6,3.1,1.5,0.2,Iris-setosa,5
4,5.0,3.6,1.4,0.2,Iris-setosa,5


In [85]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df["A"] = range(len(df))

df.head()

Unnamed: 0,SW,SL,PW,PL,C,A
0,5.1,3.5,1.4,0.2,Iris-setosa,0
1,4.9,3.0,1.4,0.2,Iris-setosa,1
2,4.7,3.2,1.3,0.2,Iris-setosa,2
3,4.6,3.1,1.5,0.2,Iris-setosa,3
4,5.0,3.6,1.4,0.2,Iris-setosa,4


In [87]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df["A"] = 2 * np.arange(len(df)) + 10

df.head()

Unnamed: 0,SW,SL,PW,PL,C,A
0,5.1,3.5,1.4,0.2,Iris-setosa,10
1,4.9,3.0,1.4,0.2,Iris-setosa,12
2,4.7,3.2,1.3,0.2,Iris-setosa,14
3,4.6,3.1,1.5,0.2,Iris-setosa,16
4,5.0,3.6,1.4,0.2,Iris-setosa,18


### Eliminar una Columna (DataFrame-)

Podemos eleminar una columna simplemente dejándola fuera en el sub-dataframe que contiene todas las columnas excepto ella.

In [79]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# drop(column, axis) : axis=0 filas, axis=1 columnas
df = df.drop("SW", 1)

df.head()

Unnamed: 0,SL,PW,PL,C
0,3.5,1.4,0.2,Iris-setosa
1,3.0,1.4,0.2,Iris-setosa
2,3.2,1.3,0.2,Iris-setosa
3,3.1,1.5,0.2,Iris-setosa
4,3.6,1.4,0.2,Iris-setosa


In [80]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# drop(columns, axis) : axis=0 filas, axis=1 columnas
df = df.drop(["SW", "PW"], 1)

df.head()

Unnamed: 0,SL,PL,C
0,3.5,0.2,Iris-setosa
1,3.0,0.2,Iris-setosa
2,3.2,0.2,Iris-setosa
3,3.1,0.2,Iris-setosa
4,3.6,0.2,Iris-setosa


### Seleccionar una Fila (DataFrame[1] / Serie)

Podemos extraer el valor de una fila en su índice mediante `iloc` y nos regresa una serie/vector con los datos de la fila.

In [94]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Extraer el vector de datos para la fila 2 (la tercera)
df.iloc[2]

SW            4.7
SL            3.2
PW            1.3
PL            0.2
C     Iris-setosa
Name: 2, dtype: object

#### Podemos traducir una fila a un diccionar/frame

In [97]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Extraer el vector de datos para la fila 2 (la tercera)
dict(df.iloc[2])

{'SW': 4.7, 'SL': 3.2, 'PW': 1.3, 'PL': 0.2, 'C': 'Iris-setosa'}

In [100]:
[dict(df.iloc[i]) for i in range(len(df))][:5]

[{'SW': 5.1, 'SL': 3.5, 'PW': 1.4, 'PL': 0.2, 'C': 'Iris-setosa'},
 {'SW': 4.9, 'SL': 3.0, 'PW': 1.4, 'PL': 0.2, 'C': 'Iris-setosa'},
 {'SW': 4.7, 'SL': 3.2, 'PW': 1.3, 'PL': 0.2, 'C': 'Iris-setosa'},
 {'SW': 4.6, 'SL': 3.1, 'PW': 1.5, 'PL': 0.2, 'C': 'Iris-setosa'},
 {'SW': 5.0, 'SL': 3.6, 'PW': 1.4, 'PL': 0.2, 'C': 'Iris-setosa'}]

### Seleccionar un rango de Filas (DataFrame[a:b])

In [103]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Extraer el sub-dataframe con filas en un rango de índices
df.iloc[10:21]

Unnamed: 0,SW,SL,PW,PL,C
10,5.4,3.7,1.5,0.2,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
17,5.1,3.5,1.4,0.3,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
19,5.1,3.8,1.5,0.3,Iris-setosa


In [107]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Extraer el sub-dataframe con filas específicas
df.iloc[[1, 5, 29, 56]]

Unnamed: 0,SW,SL,PW,PL,C
1,4.9,3.0,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
29,4.7,3.2,1.6,0.2,Iris-setosa
56,6.3,3.3,4.7,1.6,Iris-versicolor


In [105]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Podemos definir saltos en el rango de selección
df.iloc[10:21:2]

Unnamed: 0,SW,SL,PW,PL,C
10,5.4,3.7,1.5,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
20,5.4,3.4,1.7,0.2,Iris-setosa


#### Selección de filas por criterio

Podemos seleccionar las filas basadas en criterios sobre sus valores de cada columna, a esto se le conoce como una consulta (`query`).

In [122]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df.query("SW >= 3.0 and SW <= 5").head()

Unnamed: 0,SW,SL,PW,PL,C
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa


In [141]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW_1", "SL", "PW", "PL", "C"])

df.query("SW_1 / SL > PW / PL").head()

Unnamed: 0,SW_1,SL,PW,PL,C
141,6.9,3.1,5.1,2.3,Iris-virginica


In [134]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df.query("C == 'Iris-virginica' or C == 'Iris-versicolor'").sample(5)

Unnamed: 0,SW,SL,PW,PL,C
114,5.8,2.8,5.1,2.4,Iris-virginica
86,6.7,3.1,4.7,1.5,Iris-versicolor
117,7.7,3.8,6.7,2.2,Iris-virginica
51,6.4,3.2,4.5,1.5,Iris-versicolor
80,5.5,2.4,3.8,1.1,Iris-versicolor


### Ordenar Filas (DataFrame'->)

In [115]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df.sort_values("SL").head()

Unnamed: 0,SW,SL,PW,PL,C
60,5.0,2.0,3.5,1.0,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
119,6.0,2.2,5.0,1.5,Iris-virginica
68,6.2,2.2,4.5,1.5,Iris-versicolor
41,4.5,2.3,1.3,0.3,Iris-setosa


In [120]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df.sort_values(["SL", "PW"], ascending=[True, False]).head()

Unnamed: 0,SW,SL,PW,PL,C
60,5.0,2.0,3.5,1.0,Iris-versicolor
119,6.0,2.2,5.0,1.5,Iris-virginica
68,6.2,2.2,4.5,1.5,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
87,6.3,2.3,4.4,1.3,Iris-versicolor


In [143]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

df.sort_values(["SL", "SW"]).head()

Unnamed: 0,SW,SL,PW,PL,C
60,5.0,2.0,3.5,1.0,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
119,6.0,2.2,5.0,1.5,Iris-virginica
68,6.2,2.2,4.5,1.5,Iris-versicolor
41,4.5,2.3,1.3,0.3,Iris-setosa


### Tomar una muestra aleatoria de Filas (DataFrame'--)

#### Tomar un número de muestras aleatorias sin repetición

In [188]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Toma 5 muestras aleatorias sin repetición
df[:10].sample(5)

Unnamed: 0,SW,SL,PW,PL,C
2,4.7,3.2,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa


In [190]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Toma 5 muestras aleatorias con repetición
df[:10].sample(5, replace=True)

Unnamed: 0,SW,SL,PW,PL,C
6,4.6,3.4,1.4,0.3,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


#### Tomar una muestra basada en porcentaje

In [192]:
import pandas as pd
import numpy as np

df = pd.read_csv("iris.data", names=["SW", "SL", "PW", "PL", "C"])

# Toma ~5% de muestras aleatorias sin repetición
df.sample(frac=0.05)

Unnamed: 0,SW,SL,PW,PL,C
125,7.2,3.2,6.0,1.8,Iris-virginica
101,5.8,2.7,5.1,1.9,Iris-virginica
131,7.9,3.8,6.4,2.0,Iris-virginica
137,6.4,3.1,5.5,1.8,Iris-virginica
68,6.2,2.2,4.5,1.5,Iris-versicolor
33,5.5,4.2,1.4,0.2,Iris-setosa
111,6.4,2.7,5.3,1.9,Iris-virginica
8,4.4,2.9,1.4,0.2,Iris-setosa


## Mezclar DataFrames

### Left Join

### Right Join

### Inner Join

### Full Join