En este cuaderno veremos los elementos y funciones básicas de la librería **Pandas**. Los contenidos específicos son:

1. Que es Pandas.
2. Dónde encontrar datos.
3. Carga de Datos.
4. DataFrames.
5. Revisando los datos.
6. Selección de datos por etiqueta.
7. Selección de datos por posición.



## ¿Qué es Pandas?

<center>
    <img width="30%" src="https://pandas.pydata.org/docs/_static/pandas.svg">
</center>

**Pandas** es una librería de Python con la que puedes trabajar con datos **tabulados**. Es muy útil para limpiar, analizar y procesar datos.

De acuerdo con Wikipedia: _"(...)  extensión de **NumPy** para manipulación y análisis de datos para el lenguaje de programación Python. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales."_

In [1]:
#immportacion modulos
import pandas as pd
import numpy as np

## ¿Dónde encontrar datos?

En internet existen repositorios de **datos abiertos** de los que puedes descargar datasets. Algunos ejemplos:

1. [Kaggle](https://www.kaggle.com/datasets): Sitio web para prácticar y aprender sobre **ciencia de datos y machine learning**.
2. [UC Irvine Machine Learning Repository](http://archive.ics.uci.edu/ml/index.php): En este repositorio hay más de **500 datasets** de diversos temas. Usualmente son útiles para practicar y aprender sobre machine learning.
3. [Catálogo de Datos Abiertos](https://datosabiertos.gob.ec/dataset/) Datos abiertos del Ecuador.
.
.
.

Existe una gran cantidad de datasets disponibles con los que puedes trabajar.


## Carga de Datos.

Con Pandas puedes **cargar datos** de archivos externos. por lo general son datos tabulados. Los más comunes son archivos CSV, xlsx (Excel).

In [2]:
# Para importar un archivo csv
datos = pd.read_csv('dataset.csv' , sep=";")

  datos = pd.read_csv('dataset.csv' , sep=";")


In [3]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50545 entries, 0 to 50544
Data columns (total 78 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   ciclo                     50545 non-null  object
 1   grado                     50545 non-null  int64 
 2   estado_eval               50545 non-null  int64 
 3   codigo                    50545 non-null  object
 4   amie                      50545 non-null  object
 5   nm_regi                   50545 non-null  object
 6   es_regeva                 50545 non-null  int64 
 7   id_zona                   50545 non-null  object
 8   id_dist                   50545 non-null  object
 9   id_prov                   50545 non-null  int64 
 10  id_cant                   50545 non-null  int64 
 11  id_parr                   50545 non-null  int64 
 12  financiamiento            50545 non-null  int64 
 13  sostenimiento             50545 non-null  int64 
 14  tp_sexo               

In [24]:
datos.to_excel("excel.xlsx")

In [25]:
# Para importar un archivo de excel
datos_excel = pd.read_excel('excel.xlsx')

In [6]:
# Importamos un archivo 
datos = pd.read_csv('dataset.csv' , sep=";")
# Podemos ver el inicio de un DataFrame con .head()
datos.columns

  datos = pd.read_csv('dataset.csv' , sep=";")


Index(['ciclo', 'grado', 'estado_eval', 'codigo', 'amie', 'nm_regi',
       'es_regeva', 'id_zona', 'id_dist', 'id_prov', 'id_cant', 'id_parr',
       'financiamiento', 'sostenimiento', 'tp_sexo', 'na_eano', 'tp_area',
       'etnibee', 'isec', 'quintil', 'fex_inev', 'inev', 'fex_imat', 'imat',
       'fex_ilyl', 'ilyl', 'fex_icn', 'icn', 'fex_ifis', 'ifis', 'fex_iqui',
       'iqui', 'fex_ibio', 'ibio', 'fex_ies', 'ies', 'fex_ihis', 'ihis',
       'fex_ifil', 'ifil', 'fex_ied', 'ied', 'nl_imat', 'nl_ilyl', 'nl_icn',
       'nl_ifis', 'nl_iqui', 'nl_ibio', 'nl_ies', 'nl_ihis', 'nl_ifil',
       'nl_ied', 'ind_1', 'ind_2', 'ind_3', 'ind_4', 'ind_5', 'ind_6', 'ind_7',
       'ind_8', 'ind_9', 'lc_1', 'lc_2', 'lc_3', 'lc_4', 'lc_5', 'lc_6',
       'lc_7', 'lc_8', 'lc_9', 'lc_10', 'lc_11', 'lc_12', 'fex_rubrica',
       'estado_rub', 'fex_lista_cotejo', 'estado_lc',
       'fex_honestidad_academica'],
      dtype='object')

## DataFrames.

Como ya mencionamos, una Series se puede entender como una **tabla con una sola columna**, aunque también puedes verla como una lista donde cada elemento tiene una etiqueta, un **índice** el cual por default es un número entero de la posición del elemento.

<center>
    <img width="12%" src="https://pandas.pydata.org/docs/_images/01_table_series.svg">
</center>
Para crear una serie partiendo de una lista:


In [28]:
serie = pd.Series(['caracteres', 3.1416, True])

# Imprimimos la serie que creamos
print(serie)

# Información de la serie
print("\nTipo de dato: ", type(serie))
print("Tamaño: ", serie.size)

0    caracteres
1        3.1416
2          True
dtype: object

Tipo de dato:  <class 'pandas.core.series.Series'>
Tamaño:  3


Observamos cómo cada elemento de la lista ahora tiene un índice. Podemos especificar el índice explícitamente:

In [None]:
serie = pd.Series(data = ['caracteres', 3.1416, True],
                  index = ['1', '2', '3'])

print(serie)

# Podemos obtener un elemento con su índice
print(serie['Elemento 1'])


Elemento 1    caracteres
Elemento 2        3.1416
Elemento 2          True
dtype: object
caracteres


Los **DataFrames** son más complejos que las Series, ya que ahora tenemos una **tabla con varias columnas**. En este caso, tendremos **índices** para cada fila y también etiquetas para las **columnas**. Los valores default son también enteros que indican la posición.

<center>
    <img width="30%" src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg">
</center>


In [31]:
# Creemos DataFrame con una matriz aleatoria.
df = pd.DataFrame(data = np.random.rand(4, 4))

print("Tipo: ", type(df)) # Tipo de objeto
print("Tamaño: ", df.size)  #El tamaño es igual al número de celdas
print("Tamaño: ", df.info())
df # Visualizamos el DataFrame completo

Tipo:  <class 'pandas.core.frame.DataFrame'>
Tamaño:  16
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       4 non-null      float64
 1   1       4 non-null      float64
 2   2       4 non-null      float64
 3   3       4 non-null      float64
dtypes: float64(4)
memory usage: 260.0 bytes
Tamaño:  None


Unnamed: 0,0,1,2,3
0,0.313387,0.897866,0.445509,0.413369
1,0.5847,0.39893,0.613012,0.103134
2,0.201942,0.184334,0.419727,0.610008
3,0.673399,0.149493,0.660942,0.542672


In [7]:
# Podemos crear DataFrames a partir de diccionarios 
df_dict = pd.DataFrame({
    'Nombre':['Marco', 'Esteban', 'Antonio'],
    'Edad':[32, 40, 1534],
    'Altura':[1.82, 1.60, 1.50],},
    index = ['Persona 1', 'Persona 2', 'Persona 3']) # Especificamos índice
df_dict

Unnamed: 0,Nombre,Edad,Altura
Persona 1,Marco,32,1.82
Persona 2,Esteban,40,1.6
Persona 3,Antonio,1534,1.5


Ejercicio:
- Crea un DataFrame con una matriz de unos con dimensión (4, 3)
- Asigna números enteros pares como índice.
- Asigna letras como columnas.

In [10]:
#
da = [1,1,1]
#ky = { for x in []}
df_dict = pd.DataFrame({
    'a':[1,1,1],
    'b':da,
    'c':da,
    'd':da,
    },
    index = [2,4,6]) # Especificamos índice
df_dict

Unnamed: 0,a,b,c,d
2,1,1,1,1
4,1,1,1,1
6,1,1,1,1


## Revisando los datos.

Para visualizar los datos de un DataFrame, tenemos dos opciones:

```python
# Mostramos las primeras 7 filas.
df.head(n = 7)

# Mostramos las últimas 4 filas.
df.tail(n = 4)
```
Si queremos ver un DataFrame completo, lo ponemos solo en una celda.

```python
# Para ver todo el DataFrame
df
```

In [14]:
data = pd.read_csv("dataset.csv" , sep=";")

  data = pd.read_csv("dataset.csv" , sep=";")


In [36]:
data.head(n = 3)

Unnamed: 0,ciclo,grado,estado_eval,codigo,amie,nm_regi,es_regeva,id_zona,id_dist,id_prov,...,lc_8,lc_9,lc_10,lc_11,lc_12,fex_rubrica,estado_rub,fex_lista_cotejo,estado_lc,fex_honestidad_academica
0,2023-2024,10,2,0BY3566978,01H00655,2,1,6,01D02,1,...,,,,,,2431269711,2,,2,2073730047
1,2023-2024,10,2,0EYB576428,01H00655,2,1,6,01D02,1,...,,,,,,2431269711,2,,2,2073730047
2,2023-2024,10,2,0LXC578175,01H00655,2,1,6,01D02,1,...,,,,,,2431269711,2,,2,2073730047


In [37]:
data.tail(n = 4)

Unnamed: 0,ciclo,grado,estado_eval,codigo,amie,nm_regi,es_regeva,id_zona,id_dist,id_prov,...,lc_8,lc_9,lc_10,lc_11,lc_12,fex_rubrica,estado_rub,fex_lista_cotejo,estado_lc,fex_honestidad_academica
50541,2023-2024,4,2,LQZJ544557,22H00530,3,2,2,22D02,22,...,0,0,0,0,0,1912987428,2,1530389943,2,
50542,2023-2024,4,2,P33E565302,22H00530,3,2,2,22D02,22,...,0,0,0,0,0,1912987428,2,1530389943,2,
50543,2023-2024,4,2,PLBA561287,22H00530,3,2,2,22D02,22,...,0,0,0,0,0,1912987428,2,1530389943,2,
50544,2023-2024,4,2,PS7V552528,22H00530,3,2,2,22D02,22,...,0,0,0,0,0,1912987428,2,1530389943,2,


Además de consultar partes del DataFrame, también podemos consultar las etiquetas en las **filas** y las **columnas**, así como todos los **valores** del DataFrame.

```python
df = data
columnas = df.columns  # Obtenemos columnas
indice = df.index  # Obtenemos filas
valores = df.values  # Obtenemos valores
```
Veamos un ejemplo de esto:


In [11]:
columnas = df_dict.columns
filas = df_dict.index
valores = df_dict.values

print('Columnas: ', columnas, '\nFilas: ', filas)
print(valores, type(valores))  # Los valores son una matriz de NumPy!!

df_dict   # Recordamos el DataFrame de donde obtenemos estos valores

Columnas:  Index(['a', 'b', 'c', 'd'], dtype='object') 
Filas:  Index([2, 4, 6], dtype='int64')
[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]] <class 'numpy.ndarray'>


Unnamed: 0,a,b,c,d
2,1,1,1,1
4,1,1,1,1
6,1,1,1,1


Finalmente, cuando tenemos un conjunto de datos, nos será útil hacer un análisis inicial (exploratorio) de los datos. 

```python
# Describimos en general el DataFrame
df.describe()
```
Por ejemplo, obtenemos una descripción del DataFrame de la densidad poblacional:


In [40]:
   # Recordamos el DataFrame de donde obtenemos estos valores
data.describe()

Unnamed: 0,grado,estado_eval,es_regeva,id_prov,id_cant,id_parr,financiamiento,sostenimiento,tp_sexo,na_eano,tp_area
count,50545.0,50545.0,50545.0,50545.0,50545.0,50545.0,50545.0,50545.0,50545.0,50545.0,50545.0
mean,6.034781,1.969275,1.514255,12.86972,1290.180552,129050.093303,1.704541,2.758987,1.501316,2010.339717,1.644653
std,2.72836,0.172574,0.499802,7.191719,718.664646,71870.803082,0.805489,1.230177,0.500003,3.325834,0.478623
min,3.0,1.0,1.0,1.0,101.0,10101.0,1.0,1.0,1.0,2000.0,1.0
25%,4.0,2.0,1.0,9.0,901.0,90112.0,1.0,1.0,1.0,2008.0,1.0
50%,7.0,2.0,2.0,12.0,1213.0,121350.0,1.0,3.0,2.0,2011.0,2.0
75%,10.0,2.0,2.0,17.0,1701.0,170155.0,2.0,4.0,2.0,2013.0,2.0
max,10.0,2.0,2.0,90.0,9004.0,900451.0,3.0,4.0,2.0,2016.0,2.0


In [41]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50545 entries, 0 to 50544
Data columns (total 78 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   ciclo                     50545 non-null  object
 1   grado                     50545 non-null  int64 
 2   estado_eval               50545 non-null  int64 
 3   codigo                    50545 non-null  object
 4   amie                      50545 non-null  object
 5   nm_regi                   50545 non-null  object
 6   es_regeva                 50545 non-null  int64 
 7   id_zona                   50545 non-null  object
 8   id_dist                   50545 non-null  object
 9   id_prov                   50545 non-null  int64 
 10  id_cant                   50545 non-null  int64 
 11  id_parr                   50545 non-null  int64 
 12  financiamiento            50545 non-null  int64 
 13  sostenimiento             50545 non-null  int64 
 14  tp_sexo               

## Selección de datos.

Podemos seleccionar una o varias **columnas** específicas de un DataFrame utilizando las etiquetas. Se crea un nuevo **DataFrame** con las columnas especificadas.

<center>
    <img width="60%" src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg">
</center>

De manera similar, podemos seleccionar **filas** utilizando el índice. Podemos seleccionar una o varias filas y se crea también un nuevo **DataFrame**

<center>
    <img width="70%" src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg">
</center>

Para seleccionar utilizando las **etiquetas** (nombres de filas y columnas) usamos el método **loc()**. Funciona como sigue:

```python
df = data
# Seleccionamos una sola columna.
serie_columna = df.loc[:, ['Columna1']]

# Seleccionamos más de una columna.
df_columnas = df.loc[:, ['Columna1','Columna2']]

# Seleccionamos más de una fila.
df_filas = df.loc[['Indice1', 'Indice2'], :]
```


In [15]:
data.columns

Index(['ciclo', 'grado', 'estado_eval', 'codigo', 'amie', 'nm_regi',
       'es_regeva', 'id_zona', 'id_dist', 'id_prov', 'id_cant', 'id_parr',
       'financiamiento', 'sostenimiento', 'tp_sexo', 'na_eano', 'tp_area',
       'etnibee', 'isec', 'quintil', 'fex_inev', 'inev', 'fex_imat', 'imat',
       'fex_ilyl', 'ilyl', 'fex_icn', 'icn', 'fex_ifis', 'ifis', 'fex_iqui',
       'iqui', 'fex_ibio', 'ibio', 'fex_ies', 'ies', 'fex_ihis', 'ihis',
       'fex_ifil', 'ifil', 'fex_ied', 'ied', 'nl_imat', 'nl_ilyl', 'nl_icn',
       'nl_ifis', 'nl_iqui', 'nl_ibio', 'nl_ies', 'nl_ihis', 'nl_ifil',
       'nl_ied', 'ind_1', 'ind_2', 'ind_3', 'ind_4', 'ind_5', 'ind_6', 'ind_7',
       'ind_8', 'ind_9', 'lc_1', 'lc_2', 'lc_3', 'lc_4', 'lc_5', 'lc_6',
       'lc_7', 'lc_8', 'lc_9', 'lc_10', 'lc_11', 'lc_12', 'fex_rubrica',
       'estado_rub', 'fex_lista_cotejo', 'estado_lc',
       'fex_honestidad_academica'],
      dtype='object')

In [18]:
# Seleccionamos 
data2 = data[["ciclo","grado"]].copy()

In [24]:
data2["grado"].unique()

array([10,  4,  7,  3], dtype=int64)

In [27]:
data2[data2["grado"].isin([7,3])].head()

Unnamed: 0,ciclo,grado
69,2023-2024,7
70,2023-2024,7
71,2023-2024,7
72,2023-2024,7
73,2023-2024,7


Note: you may need to restart the kernel to use updated packages.




También puedes seleccionar al mismo tiempo columnas y filas:

<center>
    <img width="70%" src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg">
</center>

Ejercicio:
- Del DataFrame de densidad poblacional, filtra las columnas de población y área, y las filas de Singapore, Bangladesh y Lebanon.

In [None]:
#


## Selección de datos por posición.

En la sección anterior, seleccionamos dado a **etiquetas**, esto es, con los nombres de las filas y las columnas. Podemos hacer lo mismo pero está vez con la **posición**. Para esto, en lugar de **loc()** y **at()**, usamos **iloc()** y **iat()**.

```python
# Seleccionamos las primeras 2 columnas.
df_columnas = df.iloc[:, 0:1]

# Seleccionamos las últimas 3 filas
df_filas = df.iloc[-3:, :]

# Elemento unico
dato = df.iat[0, 0]
```
Retomamos el ejemplo .


Ejercicio:
- Del DataFrame del data, filtra y quédate solo con columnas y filas pares.

In [None]:
# To Do