# Estructuras de datos en python

## Contenedores de datos en python

Pyton ofrece varias estructuras para el almacenamiento de datos, entre ellas tenemos 
* Tuplas *tuple*
* Listas *list*
* Arreglos *array*
* Diccionarios *dictionaries* 
* **Marcos de datos** *DataFrames*

### DataFrames

*pandas* es el paquete de python que proporciona estructuras de datos útiles para análisis de estadístico, ademas de funciones que facilitan la entrada, organización y manipulación de datos. Un `DataFrame` es una estructura de datos bidimensional con columnas de  potencialmente distintos tipos de datos. Los `DataFrame` son los objetos más comunmente usados en *pandas*. 



#### Creación y operaciones con data-frames

Es común importar el paquete *pandas* como `pd` mediante la línea `import pandas as pd`. Eso es lo primero que hacemos en las siguientes lineas de código, luego creamos un `DataFrame` de nombre `df` con dos columnas y ocho filas

In [2]:
import pandas as pd
# crea un data frame con dos columnas y cuatro filas
df = pd.DataFrame({"col1": [1,3,11,2,4,7,9,5], "col2": [9,23,0,2,1,7,3,4]})
df 

Unnamed: 0,col1,col2
0,1,9
1,3,23
2,11,0
3,2,2
4,4,1
5,7,7
6,9,3
7,5,4


Note que en este ejemplo  el `DataFrame` se construye a partir de un diccionario cuyos elementos son listas, las cuales pasan a ser las columnas y cuyas *claves* se convierten en los nobres de columna. A continuación se adicionan columnas al `DataFrame` que se ha creado previamente.

#### Visualización de los datos 

Con `df.head()` y `df.tail()` podemos examinar filas al principio y al final, respectivamente, del archivo de datos.  

In [3]:
# tres primeras filas 
df.head(3) 

Unnamed: 0,col1,col2
0,1,9
1,3,23
2,11,0


In [4]:
# tres últimas filas 
df.tail(3) 

Unnamed: 0,col1,col2
5,7,7
6,9,3
7,5,4


### Obtene información de los datos 

Para obtener información sobre el numero de filas y columnas de la tabla de datos usamos el método `.info()` el cual proporciona detalles escenciales de los datos, como número de filas y columnas, el tipo de datos que contiene cada columna, la cantidad de memoria ocupada, entre otras cosas. 

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   col1    8 non-null      int64
 1   col2    8 non-null      int64
dtypes: int64(2)
memory usage: 256.0 bytes


In [10]:
# numero de filas y columnas del data 
df.shape

(8, 2)

#### Selección y adición de columnas a un `DataFrame`.  

Para seleccionar una columna del `DataFrame`, digamos una columna cuyoo nombre es `x`, procedemos de la siguiente forma: `df['x']`  o también mediante `df.x`   

In [23]:
df['col1']

0     1
1     3
2    11
3     2
4     4
5     7
6     9
7     5
Name: col1, dtype: int64

In [24]:
df.col2

0     9
1    23
2     0
3     2
4     1
5     7
6     3
7     4
Name: col2, dtype: int64

A continuación se crea la columna `rcol2` a partir de la raíz cuadrada positiva de la columna `col2` y se adiciona al `DataFrame`

In [25]:
import numpy as np # para tener disponible la función sqrt
### creación de una nueva columna 
df['rcol2']=np.sqrt(df["col2"])
df

Unnamed: 0,col1,col2,rcol2
0,1,9,3.0
1,3,23,4.795832
2,11,0,0.0
3,2,2,1.414214
4,4,1,1.0
5,7,7,2.645751
6,9,3,1.732051
7,5,4,2.0


 Con el siguiente código se crea la columna `sum_col` correspondiente a la suma de las columnas `col1` y `col2` 

In [26]:
df['sum_col']=df.eval('col1+col2')
#df
#otra forma es mediante
#df['sum_col']=df['col1']+df['col2']
# o mediante 
#df['sum_col']=df.col1 + df.col2
df

Unnamed: 0,col1,col2,rcol2,sum_col
0,1,9,3.0,10
1,3,23,4.795832,26
2,11,0,0.0,11
3,2,2,1.414214,4
4,4,1,1.0,5
5,7,7,2.645751,14
6,9,3,1.732051,12
7,5,4,2.0,9


Si necesita extraer más de una columna al tiempo, por ejemplo extraer del `DataFrame` `df` las columnas de nombre `x1` y `x2` se usa la sintaxis `df[['x1','x2']]`, veamos un ejemplo

In [28]:
df[['col1','rcol2']]

Unnamed: 0,col1,rcol2
0,1,3.0
1,3,4.795832
2,11,0.0
3,2,1.414214
4,4,1.0
5,7,2.645751
6,9,1.732051
7,5,2.0


### Selección de filas y columnas con `iloc`

El método `iloc` selecciona tanto filas como columnas del `DataFrame` basado en la posición del elemento (fila o columna). La sintaxis es de la forma `df[<fila>,<columna>]` donde `df` es un `DataFrame`, `fila` puede ser una lista con enteros indicando la posición (índice) de las filas a seleccionar o un número entero, de manera similar para `columna`. Cuando se entrega un solo valor, por ejemplo `df[valor]` la selección se hace sobre las filas, veamos con ejemplos su funcionamiento. 

In [50]:
# selecciona la primera fila del data
print(df.iloc[0])
# equivalente a df.iloc[0,]
# selecciona la segunda fila del data
print(df.iloc[1])
# equivalente a df.iloc[1,]
# selecciona la última fila del data
print(df.iloc[-1])
# las primeras 5 filas 
df.iloc[0:5]

col1        1.0
col2        9.0
rcol2       3.0
sum_col    10.0
Name: 0, dtype: float64
col1        3.000000
col2       23.000000
rcol2       4.795832
sum_col    26.000000
Name: 1, dtype: float64
col1       5.0
col2       4.0
rcol2      2.0
sum_col    9.0
Name: 7, dtype: float64


Unnamed: 0,col1,col2,rcol2,sum_col
0,1,9,3.0,10
1,3,23,4.795832,26
2,11,0,0.0,11
3,2,2,1.414214,4
4,4,1,1.0,5


In [70]:
# selecciona la primera columna del data con todas las filas 
print(df.iloc[:,0])
# equivalente a df.iloc[0,]
# selecciona la segunda columna del data con todas las filas 
print(df.iloc[:,2])
# equivalente a df.iloc[1,]
# selecciona la última columna del data con todas las filas 
df.iloc[:,-1]

0     1
1     3
2    11
3     2
4     4
5     7
6     9
7     5
Name: col1, dtype: int64
0    3.000000
1    4.795832
2    0.000000
3    1.414214
4    1.000000
5    2.645751
6    1.732051
7    2.000000
Name: rcol2, dtype: float64


0     True
1     True
2     True
3    False
4     True
5     True
6     True
7     True
Name: sum_col, dtype: bool

Se pueden seleccionar filas y columnas juntas de la siguiente manera 

In [53]:
# Las dos primeras columnas con todas las filas 
df.iloc[:,0:2]

Unnamed: 0,col1,col2
0,1,9
1,3,23
2,11,0
3,2,2
4,4,1
5,7,7
6,9,3
7,5,4


In [56]:
# filas y columnas específicas 
df.iloc[[0,3,6], [0,2]]

Unnamed: 0,col1,rcol2
0,1,3.0
3,2,1.414214
6,9,1.732051


También se pueden seleccionar filas o columnas usando valores lógicos, las filas o columnas que les corresponda un `True`es seleccionada   

In [61]:
# selecciona las columnas que les corresponda True
df.iloc[:,[False,True,False,True]]

Unnamed: 0,col2,sum_col
0,9,10
1,23,26
2,0,11
3,2,4
4,1,5
5,7,14
6,3,12
7,4,9


In [66]:
# selecciona las filas con ìndice par 
#print(df.index)
df.iloc[lambda x: x.index % 2 == 0 ]

Unnamed: 0,col1,col2,rcol2,sum_col
0,1,9,3.0,10
2,11,0,0.0,11
4,4,1,1.0,5
6,9,3,1.732051,12


### Selección de filas y columnas con `loc` 

Con el método `loc`se puede acceder a un grupo de filas o columnas de la tabla de datos mediante etiquetas o un arreglo cuyos elementos son valores lógicos.  

En el siguiente ejemplo se seleccionan aquellas filas para las cuales se verifica que los valores de `col1` son mayores que 4

In [77]:
df.loc[df.col1>4]

Unnamed: 0,col1,col2,rcol2,sum_col
2,11,0,0.0,11
5,7,7,2.645751,14
6,9,3,1.732051,12
7,5,4,2.0,9


Equivalentemente se puede hacer como sigue 

In [79]:
df.loc[lambda df: df['col1']>4]

Unnamed: 0,col1,col2,rcol2,sum_col
2,11,0,0.0,11
5,7,7,2.645751,14
6,9,3,1.732051,12
7,5,4,2.0,9
