## 2. Dataframes 游빔
 - Es una estructura de datos __bidimensional__ (organizada en filas y columnas) y __etiquetada__. 
 - Similar a una hoja de c치lculo de Excel, una __tabla de SQL__. 
 - A diferencia de un array de NumPy, __cada columna puede tener un tipo diferente de dato__.
### 2.1. Creaci칩n desde un __diccionario de Series__ (dict of Series) 游닂
Mediante esta forma de creaci칩n Pandas maneja __autom치ticamente__ la __alineaci칩n de indices__.
- __Uni칩n de 칤ndices:__ el 칤ndice resultante ser치 la _uni칩n_ de todos los 칤ndices de las Series.
- __Datos faltanes:__ Si una etiqueta no existe en una Serie pero si en la otra, se rellena con Nan. Debe existir en todas las series para que pueda tener un valor diferente a NaN (Not a Number).

En el DataFrame la __clave de la serie__ en el diccionario ser치n __etiquetas de columnas__ y las __etiquetas de los 칤ndices__ de los valores de la series ser치n las __etiquetas de las filas__. Los valores rellenar치n la columna de arriba hacia abajo (__Descendente__, forma predeterminada), de igual manera las etiquetas del indice de las ser칤es, estas deben coincidir con su respectivo valor asociado en la serie. 

In [1]:
import numpy as np
import pandas as pd

In [None]:
#Preparamos datos
primera_serie = pd.Series([1.0, 2.3, 3.3], index = ["a", "b", "c"]) 
segunda_serie = pd.Series([1.0, 2.0, 3.0, 4.0, 5.0], index = ["a", "b", "c", "d", "e"]) 

#Definimos un diccionario de series, con una clave o identificador tipo "srt" (cadena de caracteres)
dict_series = {
    "primera_columna" : primera_serie,
    "segunda_columna" : segunda_serie,
}

In [3]:
# Construcci칩n b치sica de un dataframe (alineaci칩n autom치tica)
df = pd.DataFrame(dict_series)
print("Tipo de dato: ", type(df))
print(f'DataFrame creado a partir de un "dict" de "Series":\n{df}')

Tipo de dato:  <class 'pandas.core.frame.DataFrame'>
DataFrame creado a partir de un "dict" de "Series":
   primera_columna  segunda_columna
a              1.0              1.0
b              2.3              2.0
c              3.3              3.0
d              NaN              4.0
e              NaN              5.0


In [5]:
#Forzar un 칤ndice espec칤fico: 
# Solo se mantienen las filas que coinciden con este 칤ndice. Se pueden reordenar las filas
df_index = pd.DataFrame(dict_series, ["d", "b", "a"])
print(f'DataFrame con 칤ndice espec칤fico y reordenado:\n{df_index}')

DataFrame con 칤ndice espec칤fico y reordenado:
   primera_columna  segunda_columna
d              NaN              4.0
b              2.3              2.0
a              1.0              1.0


In [13]:
#Forzar columnas espec칤ficas: 
# Si pedimos una columna (o serie) que no existe en el diccionario, se crea con NaN
df_cols = pd.DataFrame(dict_series, index=["d", "b", "a"], columns= ["segunda_columna", "tercera_columna", "cuarta_columna"])
print(f'游빌 Dataframe con columnas forzadas:\n{df_cols}')

游빌 Dataframe con columnas forzadas:
   segunda_columna tercera_columna cuarta_columna
d              4.0             NaN            NaN
b              2.0             NaN            NaN
a              1.0             NaN            NaN


Acceso a atributos b치sicos de un DataFrame: podemos inspeccionar las etiquetas de filas y columnas.

In [14]:
print(f'Etiqueta de filas (Index):\n{df.index}')
print('=' * 65)
print(f'Etiqueta de Columnas (Columns):\n{df.columns}')

Etiqueta de filas (Index):
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Etiqueta de Columnas (Columns):
Index(['primera_columna', 'segunda_columna'], dtype='object')


## 2.2. Creaci칩n a partir de un __diccionario de Listas o Arrays__ (dict of ndarrays or lists) 游둰勇끂n- __Regla de longitud:__ Todas las listas o arrays deben de tener la misma longitud. Si no, Python dar치 error.
- __칈ndice:__ Si no se especifica un 칤ndice, se genera un rango num칠rico autom치tico en el rango de ```[0, longitud o tama침o de arrays -1]```.

In [16]:
#游닇Diccionaro de listas simples
diccionario_listas = {
    "Nombre" : ["Li", "Smith", "Lam", "Gagnon", "Ava"],
    "Edad" : [26, 35, 40, 21, 24]
}
print(f'Diccionario de listas simples:\n{diccionario_listas}')

Diccionario de listas simples:
{'Nombre': ['Li', 'Smith', 'Lam', 'Gagnon', 'Ava'], 'Edad': [26, 35, 40, 21, 24]}


In [17]:
#A. Dataframe sin 칤ndice expl칤cito (impl칤cito) creado a partir de un diccionario de listas
df_listas = pd.DataFrame(diccionario_listas)
print(f'DataFrame con 칤ndice impl칤cito:\n{df_listas}')

DataFrame con 칤ndice impl칤cito:
   Nombre  Edad
0      Li    26
1   Smith    35
2     Lam    40
3  Gagnon    21
4     Ava    24


In [18]:
#B. Dataframe con 칤ndice expl칤cito creado a partir de un diccionario de listas
ids = ["id_01", "id_02", "id_03", "id_04", "id_05"]
df_listas_idx = pd.DataFrame(diccionario_listas, ids)
print(f'Dataframe con 칤ndice expl칤cito:\n{df_listas_idx}')

Dataframe con 칤ndice expl칤cito:
       Nombre  Edad
id_01      Li    26
id_02   Smith    35
id_03     Lam    40
id_04  Gagnon    21
id_05     Ava    24


### 2.3. Creaci칩n desde un __array estructurado de NumPy__ (structured array)
Pandas respeta los nombres de los campos del array estructurado.

In [21]:
#Definimos tipos: 'i4' (entero), 'f4' (float), 'U10' (string unicode)
#1. Creaci칩n del array vac칤o
data_struct = np.zeros((2, ), dtype=[("A", "i4"), ("B", "f4"), ("C", "U10")])
#2. Ac치 se crean los valores que van a contener las filas
data_struct[:] = [(1, 2.5555555, "Hola"), (2, 3.5555555, "Mundo")]
print(f'Array estucturado de NumPy:\n{data_struct}')

Array estucturado de NumPy:
[(1, 2.5555556, 'Hola') (2, 3.5555556, 'Mundo')]


In [23]:
#A.Conversi칩n directa sin especificaci칩n de 칤ndice
df_struct = pd.DataFrame(data_struct)
print(f'游빔DataFrame desde un array estructurado de NumPy:\n{df_struct}')

游빔DataFrame desde un array estructurado de NumPy:
   A         B      C
0  1  2.555556   Hola
1  2  3.555556  Mundo


In [24]:
#B.Dataframe con especificaci칩n de 칤ndice
df_struct_idx = pd.DataFrame(data_struct, index= ["first", "second"])
print(f'Dataframe con 칤ndice especificado: {df_struct_idx}')

Dataframe con 칤ndice especificado:         A         B      C
first   1  2.555556   Hola
second  2  3.555556  Mundo


In [None]:
#C. Especificar y reordenar columnas: podemos elegir que columnas y traer y en que orden
df_struct_cols = pd.DataFrame(data_struct, columns=["C", "A"])
print(f'游댃DataFrame estructurado reordenado (Solo las columnas C y A):\n{df_struct_cols}')

Debemos saber que un DataFrame(DF), no est치 dise침ado para funcionar exactamente como un ndArray NumPy bidimensional. Son distintos el DF posee filas y columnas etiquetadas. Mientras que el array se recorre por posiciones.
## 2.4. Creaci칩n de un DataFrame a partir de una _lista de diccionarios_ (list of dicts) 游늶
- __Filas:__ Cada diccionario en la lista representa una fila.
- __Columnas:__ Las claves de lso diccionario se convierten en nombrees de columnas
- __Faltantes:__ Si un diccionario no tiene una clave que otros s칤 tienen, se rellena con _NaN_.

In [25]:
#游닍Lista de diccionarios (simulaci칩n de datos JSON)
data_list = [
{"B" : 2, "C" : 3, "D" : 4, "E" : 6, "H":8 },
{"A" : 1, "C" : 3, "D" : 4, "E": 5, "F": 6, "G": 7}
]
print(f'Lista de diccionarios:\n{data_list}')

Lista de diccionarios:
[{'B': 2, 'C': 3, 'D': 4, 'E': 6, 'H': 8}, {'A': 1, 'C': 3, 'D': 4, 'E': 5, 'F': 6, 'G': 7}]


En este ejemplo que sigue podemos ver que no se hace un ordenamiento de 칤ndice
  - Primero se colocan todos los 칤ndices que coinciden, luego los 칤ndices del primero diccionario que no coinciden, posteriormente las etiquetas de segundo diccionario y as칤 sucesivamente.

In [26]:
#A. Creaci칩n b치sica: 칤ndices impl칤cito
df_list_dict = pd.DataFrame(data_list)
print(f'Creaci칩n b치sica de un DataFrame a partir de un diccionario de listas:\n{df_list_dict}')

Creaci칩n b치sica de un DataFrame a partir de un diccionario de listas:
     B  C  D  E    H    A    F    G
0  2.0  3  4  6  8.0  NaN  NaN  NaN
1  NaN  3  4  5  NaN  1.0  6.0  7.0


In [27]:
#B. Creaci칩n de un DataFrame con 칤ndices expl칤citos
df_list_dict_idx = pd.DataFrame(data_list, index = ["fila_1", "fil_2"])
print(f'DataFrame con 칤ndice expl칤cito:\n{df_list_dict_idx}')

DataFrame con 칤ndice expl칤cito:
          B  C  D  E    H    A    F    G
fila_1  2.0  3  4  6  8.0  NaN  NaN  NaN
fil_2   NaN  3  4  5  NaN  1.0  6.0  7.0


In [28]:
#C. Seleccionar columnas espec칤ficas
df_cols = pd.DataFrame(data_list, columns = ["A", "B", "C", "D"])
print(f'Creando un DataFrame filtrando solo por columnas:\n{df_cols}')

Creando un DataFrame filtrando solo por columnas:
     A    B  C  D
0  NaN  2.0  3  4
1  1.0  NaN  3  4


## 2.5. Creaci칩n de un DataFrame desde un _diccionario de Tuplas_ (MultiIndex Autom치tico) 游빌
Si pasamos un diccionario donde las ___claves son tuplas__, Pandas interpreta esto como una estructura jer치rquica (MutiIndex).
- __Tuplas como claves del diccionario:__ Se convierte en las ___columnas___ (con m칰ltiples niveles) 游댐
- __Tuplas como claves de diccionarios internos:__ Se convierten en el ___칤ndice___ (con m칰ltiples niveles)游딓勇끂n
Esto se puede entender como __anidamiento__ de columnas (Columnas dentro de columnas) y filas (filas dentro de filas). 

游눠Pandas crea 칤ndices  columnas anidados cuando usa tuplas como claves.

In [31]:
#游둖勇뀫iccionario complejo con tuplas
datos_complejos = {
    # Clave Externa (Columna Jer치rquica) : { Clave Interna (Fila Jer치rquica) : Valor }
    ("Nivel_Col_1", "sub_col_a"): {("Fila_A", "sub_col_1"): 1, ("Fila_A", "sub_col_2"): 2},
    ("Nivel_Col_1", "sub_col_b"): {("Fila_A", "sub_col_2"): 3, ("Fila_A", "sub_col_1"): 4},
    ("Nivel_Col_2", "sub_col_c"): {("Fila_A", "sub_col_1"): 5, ("Fila_A", "sub_col_2"): 6},
    ("Nivel_Col_2", "sub_col_d"): {("Fila_A", "sub_col_1"): 7, ("Fila_A", "sub_col_2"): 8},
    ("Nivel_Col_2", "sub_col_e"): {("Fila_A", "sub_col_1"): 9, ("Fila_A", "sub_col_2"): 10},
}
# Recordar que Python es sensible a may칰sculas y min칰sculas
#Creaci칩n DataFrame MultiIndex
df_multi = pd.DataFrame(datos_complejos)

print(f'DataFrame con MultiIndex (Jeraqu칤a en Filas y Columnas):\n{df_multi}')
#游눠Oservemos como Pandas agrupa autom치ticamente "Nivel_Col_1" arriba

DataFrame con MultiIndex (Jeraqu칤a en Filas y Columnas):
                 Nivel_Col_1           Nivel_Col_2                    
                   sub_col_a sub_col_b   sub_col_c sub_col_d sub_col_e
Fila_A sub_col_1           1         4           5         7         9
       sub_col_2           2         3           6         8        10


### 2.6. Creaci칩n de DataFrames a partir de __Series de Pandas__ 游냪
Convertir una _Series (1D)_ en un _DataFrame (2D)_ directamente. Esto nos dar치 un DataFrame de una columna. Si la serie tiene un atributo __name__, ese ser치 el nombre de la columna. Si no, sera 0 (o lo que se especifique). Se converva el 칤ndice original de las series.

In [32]:
# Crear una serie con nombre
serie_origen = pd.Series(range(3), index = ["x", "y", "z"], name = "Datos")

#Conversi칩n a DataFame
df_serie = pd.DataFrame(serie_origen)
print(f'Serie convertida a DataFrame:\n{df_serie}')
#游댍Verificaci칩n 
print('=' * 50)
print(f'Tipo de objeto original:\n{type(serie_origen)}')
print(f'Tipo de objeto nuevo:\n{type(df_serie)}')

Serie convertida a DataFrame:
   Datos
x      0
y      1
z      2
Tipo de objeto original:
<class 'pandas.core.series.Series'>
Tipo de objeto nuevo:
<class 'pandas.core.frame.DataFrame'>
