# Capitulo 7: Creacion de Dataframes

## Introducción

Un Dataframe es una estrucutra de datos proveido por la libreria pandas, aparte de Series y Panel. Esto es una estructura de 2 dimensiones y puede ser comparado con una tabla de filas y columnas.

Cada fila puede ser identificado por un indice entero (0...N) o una etiqueta explicita ajustada cuando se crea un objeto Dataframe. Cada columna puede ser de distintos tipos y estos ser identificados por una etiqueta.

Este tema cubre varias maneras de construir o crear un objeto DataFrame. Por ejemplo desde arrays de Numpy, desde una lista de tuplas o desde un diccionario.

## Ejemplos

### Crear una Muestra

In [2]:
import pandas as pd

Crea un dataframe desde un diccionario que contiene dos columnas, `numbers` y `colors`. Cada clave representa el nombre de una columna y el valor es una serie de datos, el contenido de la columna:

In [4]:
df = pd.DataFrame({"numbers": [1, 2, 3], "colors": ["red", "white", "blue"]})

Muestra el contenido del DataFrame:

In [5]:
df

Unnamed: 0,numbers,colors
0,1,red
1,2,white
2,3,blue


Pandas ordena las columnas alfabeticamente como los `diccionarios` no son ordenados. Para especificar el orden, use el paramentro `columns`.

In [6]:
df = pd.DataFrame(
    {"numbers": [1, 2, 3], "colors": ["red", "white", "blue"]},
    columns=["numbers", "colors"]
)
df

Unnamed: 0,numbers,colors
0,1,red
1,2,white
2,3,blue


### Crear una muestra usando Numpy

Crea un `DataFrame` de numeros aleatorios

In [7]:
import numpy as np
import pandas as pd

# Ajusta la semilla para hacer un ejemplo reproducible

np.random.seed(0)

df = pd.DataFrame(
    np.random.randn(5,3), 
    columns=list("ABC")
)

df

Unnamed: 0,A,B,C
0,1.764052,0.400157,0.978738
1,2.240893,1.867558,-0.977278
2,0.950088,-0.151357,-0.103219
3,0.410599,0.144044,1.454274
4,0.761038,0.121675,0.443863


Crea un `Dataframe` con enteros

In [8]:
df = pd.DataFrame(
    np.arange(15).reshape(5,3),
    columns=list("ABC")
)

df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


Crea un dataframe que incluya nans (NaT, NaN, "nan", None) a traves de las filas y las columnas:

> Nota: la funcion .ix fue reemplazada por *iloc*

> Nota: NaT significa Not a Time

FutureWarning: Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value 'NaT' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  df.iloc[::4,1] = pd.NaT

FutureWarning: Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value 'nan' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  df.iloc[:3,2] = 'nan'


In [12]:
df = pd.DataFrame(
    np.arange(48).reshape(8,6),
    columns=list("ABCDEF")
)

df.iloc[::2,0] = np.nan
df.iloc[::4,1] = pd.NaT
df.iloc[:3,2] = 'nan'
df.iloc[:,5] = None
df.iloc[5,:] = None
df.iloc[7,:] = np.nan

df

  df.iloc[::4,1] = pd.NaT
  df.iloc[:3,2] = 'nan'


Unnamed: 0,A,B,C,D,E,F
0,,NaT,,3.0,4.0,
1,6.0,7,,9.0,10.0,
2,,13,,15.0,16.0,
3,18.0,19,20.0,21.0,22.0,
4,,NaT,26.0,27.0,28.0,
5,,,,,,
6,,37,38.0,39.0,40.0,
7,,,,,,


### Crea un DataFrame desde multiples colecciones usando un diccionario

In [13]:
import pandas as pd
import numpy as np

np.random.seed(123)
x = np.random.standard_normal(4)
y = range(4)
df = pd.DataFrame(
    {'X': x, 'Y': y}
)

df

Unnamed: 0,X,Y
0,-1.085631,0
1,0.997345,1
2,0.282978,2
3,-1.506295,3


## Numpy
### Tipos de Random

```py
# Tipos de random en numpy

normal = np.random.standard_normal(100000)
cauchy = np.random.standard_cauchy(100000)
expone = np.random.standard_exponential(100000)
gamma_ = np.random.standard_gamma(100000)
t_type = np.random.standard_t(100000)

normal2 = np.random.normal(0,1,100000)
expone2 = np.random.exponential(1,100000)
gamma_2 = np.random.gamma(1,1,100000)
t_type2 = np.random.standard_t(1,100000)
```

### Creando un DataFrame desde una lista de tuplas

Usted puede crear un dataframee desde una simple lista de tuplas y puede elegir y especificar los elementos de las tuplas que usted quiere usar. Aqui nosotros crearemos un Dataframe cusando todos los datos en cada tupla excepto el ultimo elemento.

In [17]:
import pandas as pd

data = [
    ('p1', 't1', 1, 2),
    ('p1', 't2', 3, 4),
    ('p2', 't1', 5, 6),
    ('p2', 't2', 7, 8),
    ('p2', 't3', 2, 8),
]

df = pd.DataFrame(
    data,
)
df

Unnamed: 0,0,1,2,3
0,p1,t1,1,2
1,p1,t2,3,4
2,p2,t1,5,6
3,p2,t2,7,8
4,p2,t3,2,8


## Creando un dataframe desde una lista de diccionarios

crea  un dataframe desde multiples listas pasando un dict como valores de lista. Las llaves del diccionario son usadas como etiquetas de  columna. Las listas tambien puede ser ndarrays. Las listas de ndarrays deben ser de la misma longitud.

In [19]:
import pandas as pd

# crea un dataframe desde n diccionario de listas o ndarray
df = pd.DataFrame(
    {'A': [1,2,3,4], 'B': [4,3,2,1],},
)
df

Unnamed: 0,A,B
0,1,4
1,2,3
2,3,2
3,4,1


Sí los arrays no son de la misma longitud un error será levantado.

In [22]:
df = pd.DataFrame(
    {
        'A': [1,2,3,4],
        'B': [4,3,2],
    }
) # Esto levanta un Value Error

ValueError: All arrays must be of the same length

Usando ndarrays

In [23]:
import pandas as pd
import numpy as np

np.random.seed(123)
x = np.random.standard_normal(4)
y = range(4)
df = pd.DataFrame(
    {'X': x, 'Y': y}
)
df

Unnamed: 0,X,Y
0,-1.085631,0
1,0.997345,1
2,0.282978,2
3,-1.506295,3


Mire detalles adicionales en el siguiente <a href='http://pandas.pydata.org/pandas-docs/stable/dsintro.html#from-dict-of-
ndarrays-lists'>link</a>: 

### Creando un DataFrame con tiempo


In [1]:
import pandas as pd
import numpy as np

np.random.seed(0)
# crea un array de 5 fechas emezando en 2015-02-24, uno or minuto
rng = pd.date_range(
    '2/24/2015',
    periods=5,
    freq='T'
)

df = pd.DataFrame(
    {'Date': rng, 'Val': np.random.randn(len(rng))},
)

df

Unnamed: 0,Date,Val
0,2015-02-24 00:00:00,1.764052
1,2015-02-24 00:01:00,0.400157
2,2015-02-24 00:02:00,0.978738
3,2015-02-24 00:03:00,2.240893
4,2015-02-24 00:04:00,1.867558


In [2]:
# Crea un array de 5 fechas emezando en 2015-02-24, uno por cada 3 años
rng = pd.date_range('2015-02-24', periods=5, freq='3A')
df = pd.DataFrame({'Date': rng, 'Val': np.random.randn(len(rng))})

df

Unnamed: 0,Date,Val
0,2015-12-31,-0.977278
1,2018-12-31,0.950088
2,2021-12-31,-0.151357
3,2024-12-31,-0.103219
4,2027-12-31,0.410599


### DataFrame con DateTimeIndex:

In [4]:
import pandas as pd
import numpy as np

np.random.seed(0)
rng = pd.date_range('2015-02-24', periods=5, freq='T')
df = pd.DataFrame(
    {'Val': np.random.randn(len(rng))}, index=rng
)
df

Unnamed: 0,Val
2015-02-24 00:00:00,1.764052
2015-02-24 00:01:00,0.400157
2015-02-24 00:02:00,0.978738
2015-02-24 00:03:00,2.240893
2015-02-24 00:04:00,1.867558


## Date Range

Como se pdo apreciar en los dos ejemplos anteriores, la ggeneracion de fechas se hizo con la puncion de pandas `date_range` 

- Fecha inicial: '2015-02-24'
- Periodos o repeticiones: 5
- Frecuencia, con que distancia se repite:
        Q C


<table>
<tr>
<th>Alias</th><th>Description</th>
</tr>
<tr>
<td>B</td><td>business day frequency</td>
</tr>
<tr>
<td>C</td><td>custom business day frequency (experimental)</td>
</tr>
<tr>
<td>D</td><td>calendar day frequency</td>
</tr>
<tr>
<td>W</td><td>weekly frequency</td>
</tr>
<tr>
<td>M</td><td>month end frequency</td>
</tr>
<tr>
<td>BM</td><td>business month end frequency</td>
</tr>
<tr>
<td>CBM</td><td>custom business month end frequency</td>
</tr>
<tr>
<td>MS</td><td>month start frequency</td>
</tr>
<tr>
<td>BMS</td><td>business month start frequency</td>
</tr>
<tr>
<td>CBMS</td><td>custom business month start frequency</td>
</tr>
<tr>
<td>28Q</td><td>quarter end frequency</td>
</tr>
<tr>
<td>BQ</td><td>business quarter endfrequency</td>
</tr>
<tr>
<td>QS</td><td>quarter start frequency</td>
</tr>
<tr>
<td>BQS</td><td>business quarter start frequency</td>
</tr>
<tr>
<td>A</td><td>year end frequency</td>
</tr>
<tr>
<td>BA</td><td>business year end frequency</td>
</tr>
<tr>
<td>AS</td><td>year start frequency</td>
</tr>
<tr>
<td>BAS</td><td>business year start frequency</td>
</tr>
<tr>
<td>BH</td><td>business hour frequency</td>
</tr>
<tr>
<td>H</td><td>hourly frequency</td>
</tr>
<tr>
<td>T, min</td><td>minutely frequency</td>
</tr>
<tr>
<td>S</td><td>secondly frequency</td>
</tr>
<tr>
<td>L, ms</td><td>milliseconds</td>
</tr>
<tr>
<td>U, us</td><td>microseconds</td>
</tr>
<tr>
<td>N</td><td>nanoseconds</td>
</tr>
</table>

### Creando un dataframe con multi indice

In [8]:
import pandas as pd
import numpy as np

# Usando from_tuples

np.random.seed(0)
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]))
idx = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

In [6]:
# Usando from_product

idx = pd.MultiIndex.from_product(
    [['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
)

Entonces, usamos estos multiindices

In [9]:
df = pd.DataFrame(
    np.random.randn(8, 2),
    index=idx,
    columns=['A', 'B'],
)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.764052,0.400157
bar,two,0.978738,2.240893
baz,one,1.867558,-0.977278
baz,two,0.950088,-0.151357
foo,one,-0.103219,0.410599
foo,two,0.144044,1.454274
qux,one,0.761038,0.121675
qux,two,0.443863,0.333674


### Guardar y cargar un dataframe desde un pickle o formato *.plk

In [None]:
import pandas as pd

# Guardar el DataFrame en un archivo .plk
df.to_pickle('df.plk')

# Cargar el DataFrame desde el archivo .plk
df = pd.read_pickle('df.plk')

### Crear un dataframe desde una lista de diccionarios.

Un dataframe puede ser creado desde una lista de diccionarios. Las claves son usadas como nombres de columnas

In [10]:
import pandas as pd

L = [{'Name': 'Jhon', 'Last Name': 'Smith'},
     {'Name': 'Jane', 'Last Name': 'Doe'},]
pd.DataFrame(L)

Unnamed: 0,Name,Last Name
0,Jhon,Smith
1,Jane,Doe


Los valores perdidos son rellenados con 'NaN'

In [11]:
L = [{'Name': 'Jhon', 'Last Name': 'Smith', 'Age': 25},
     {'Name': 'Jane', 'Last Name': 'Doe'},]
pd.DataFrame(L)

Unnamed: 0,Name,Last Name,Age
0,Jhon,Smith,25.0
1,Jane,Doe,
