## **Fundamentos de programación**
>>**Diplomado  en métodos estadísticos**

>>**Facultad de Ingeniería y Ciencias Básicas.**

>>**Universidad Central  2023**


> >*Profesor: Jorge Victorino* y *Darwin Martínez*

>**Tema:**

>* Operaciones básicas con dataframes
>>* Cragar y guardar información con pandas
>>* Acceso
>>* Ordenamiento 
>>* Filtrado

>---

## __1 - Cargar información con pandas__
 
Pandas proporciona facilidades para la recuperación fácil de datos de una variedad de fuentes de datos como objetos de pandas. Para este notebook se usará el conjunto de datos de paises. Importe la librería de **Pandas** y **NumPy** y cargue el archivo **base.xlsx - pais.csv**.

```python
# importando librerías 
import pandas as pd
import numpy as np

URL_pais = 'pais.csv'      # URL de acceso al archivo
URL_iris = 'iris.csv'
```

Defina el nombre del DataFrame sobre el cual va a cargar los datos del archivo e invoque la instrucción *read_csv* de lectura de archivos **.csv**.


```python
# argumentos de la función:
    # URL donde se encuentra el archivo
    # separardor que utiliza el archivo
    # tipo de codificación del archivo (reconodimiento de caracteres especiales en la lectura)
    # omisión de errores en la lectura del archivo
dfp = pd.read_csv(URL_pais, sep=',', encoding='utf-8', error_bad_lines=False)
dfi = pd.read_csv(URL_iris, sep=',', encoding='utf-8', error_bad_lines=False)
print('País (filas, columnas):', dfp.shape)
print('País (nombre columnas):', dfp.columns)
print('País (tipos):', dfp.dtypes)
dfp.head()

```


* Hacer lo mismo para los datos de 'iris' 


In [None]:
# celda de código para probar


## Cargando datos en un DataFrame a partir de hoja electrónica

> Como recomendación, procure dejar en una celda independiente para la lectura de los datos. Esta lectura tiene un costo de carga en recursos de máquina que puede impactar su trabajo y el entorno de python si se esta ejecutando continuamente.


```python
URL_datos = 'examen.xlsx'                         # URL local del archivo a leer
dfe = pd.read_excel(URL_datos)                     # lectura del archivo 
dfx = pd.read_excel(URL_datos, 'examen1')          # lectura del archivo especificando la hoja
```
> No siempre es necesario especificar el nombre de la hoja del archivo. Pandas por defecto tomará la primera, revise los nombres de las hojas en el archivo de excel. Ahora usted en una nueva celda puede llamar los DataFrame creados a partir de la lectura de los archivos.






In [None]:
# celda de código para probar

## __2. Acceso al Dataframe__

Dentro de las operaciones que se requieren para trabajar un Dataframe se resaltan las siguientes:

>* Seleccionar las columnas que se quieren ver
>* Seleccionar un subconjunto de las filas utilizando el índice (primeras, últimas, intervalo), 
>* Obtener índice y cambiar el índice de la tabla

---
### Seleccionar columnas

El método para seleccionar columnas de un dataframe más usado es hacer una lista con los nombres de las columnas en el orden que se quiere, así como se muestra en el siguiente ejemplo:

```python
print(dfe.columns)
sel_columns = ['IDE', 'IDG', 'profesor', 'nota']
dfe1 = dfe[sel_columns]
display(dfe1)
```
Se puede usar directamente sin declarar la lista


```python
dfe1 = dfe[['IDE', 'IDG', 'profesor', 'jornada', 'nota']]
```






In [1]:
# Celda de código para probar

### Seleccionar filas
La función __iloc__ resulta útil para seleccionar filas y columnas de un DataFrame, como se muestra en el siguiente ejemplo:



```python
print(dfe1.iloc[0])   # imprime el primer registro
print(dfe1.iloc[1])   # imprime el segundo registro
print(dfe1.iloc[-1])  # imprime el último registro
```

__iloc__ funciona como una lista de dos dimensiones, con el primer espacio se accede a las filas y con el segundo a las columnas



```python
s1 = dfe1.iloc[:,-1]
print(type(s1))
s1
```
Pruebe los siguientes ejemplos y verifique el tipo de estructura que devuelve cada operación:

```python
dfe1.iloc[0:5]            # Primeras cinco filas
dfe1.iloc[:, 0:5]         # Primeras cinco columnas
dfe1.iloc[[0,2,1]]        # Primera, tercera y segunda filas
dfe1.iloc[:, [0,2,1]]     # Primera, tercera y segunda columnas
```

* Usar las funciones head, tail y sample para ver una muestra de los datos del DataFrame


In [None]:
# Celda de código para probar


### Obtener el índice y cambiar índice de la Tabla

Es posible generar una lista de valores con los índices del Dataframe

```python
dfe1 = dfe[['IDE', 'IDG', 'profesor', 'jornada', 'nota']]
ind1 = dfe.index.to_list()
dfe1.set_index('IDE', drop=False, inplace=True)
ind2 = dfe.index.to_list()

```




In [None]:
# Celda de código para probar


### Generar una columna calculada

Crear un DataFrame a partir de un diccionario

```python
dic = {'nombre':['jorge', 'Darwin', 'Miguel'], 'peso':[68.5, 78.3, 65.5], 'altura':[1.67, 1.72, 1.52]}
dfm = pd.DataFrame(dic)
dfm
```
Usar peso y altura para calcular imc y agregar como nueva columna al Dataframe


```python
dfm['imc'] = dfm.peso/dfm.altura**2
```
*Agregue una columna con los valores de 'edad'
*Cambie un valor específico del DataFrame





In [None]:
# Celda de código para probar


## __3. Ordenamiento de DataFrames.__

Una vez cargado un conjunto de datos en un DataFrame, pandas le permite realizar ordenamientos por una columna, múltiple columna y por índice.

Este ordenamiento puede darse de forma ascendente o descendente.

#### 2.1 Ordenamiento por una o varias columnas
Para realizar ordenamiento por columna(s) usted puede utilizar la función *sort_values*. Esta función recibe argumentos de:

*   Nombre de la columna o una lista con el nombre de las columnas.
*   ascending = verdadero o falso para cada columna
*   inplace = verdadero para hacer el ordenamiento sobre el dataframe original.


```python
# ordenamiento ascendente por una columna
dfp.sort_values(['Pais'], ascending=[True], inplace=True)
dfp
# ordenamiento descendente por una columna
dfp.sort_values(['capital'], ascending=[False], inplace=True)
dfp
# ordenamiento dos columnas: ascendente col 1 y descendente col 2
dfp.sort_values(['C','Pobla' ], ascending=[True, False], inplace=True)
dfp
# ordenamiento dos columnas: ascendente col 1 y acendente col 2
dfp.sort_values(['C','Pobla' ], ascending=[True, True], inplace=True)
dfp
```


In [2]:
#Celda de código para probar
# ordenamiento ascendente por una columna

#### Ordenamiento por índices
Con pandas usted puede redefinir el índice ordinal original. Para esto debe encontrar una serie dentro de su DataFrame contenga valores únicos. Ejemplo:


```python
dfp.set_index('Pais', inplace=True)
dfp
```

Ahora ustede puede usar la función sort_index para hacer el ordenamiento ascendente o descendente a partir del índice que se ha definido.


In [3]:
# Celda de código para probar


---
Ahora quisieramos generar un índice ordenando por profesor de manera descendente y guardar este índice en el dataframe. 



```python
dfe1.sort_values(by=['profesor'], ascending=False, inplace=True)
dfe1.set_index('IDE',  inplace=True)
dfe1.reset_index(inplace=True)
dfe1.sort_values(by=['IDE'], ascending=False, inplace=True)
dfe1.reset_index(inplace=True)
dfe1
```



In [4]:
# celda de código para probar

## __4. Filtrado en DataFrames__
En pandas usted puede aplicar diferentes tipos de filtro sobre un DataFrame. Los filtros pueden ser construidos a partir de la evaluación de expresiones lógicas sobre las columnas o funciones propias de pandas.

A continuación se muestran unos ejemplos de filtros construidos con pandas.$$$$


Valores máximos o mínimos sobre todo el DataFrame
```python
dfp.max() # obtiene los valores máximos de cada serie sobre todo el dataframe
dfp.min() # obtiene los valores máximos de cada serie sobre todo el dataframe
```
Valores máximos y mínimos sobre una columna
```python
dfp['altura'].max() # obtiene el valor máximo de la columna seleccionada
dfp['altura'].min() # obtiene el valor máximo de la columna seleccionada
```
Valores máximos y mínimos de más de una columna
```python
dfp[['altura', 'Pob-cap']].max() # obtiene el valor máximo de la columnas seleccionadas
dfp[['altura', 'Pob-cap']].min() # obtiene el valor máximo de la columna seleccionada
```

In [5]:
# Celda de código para probar


Filtrado de n valores máximos o mínimos en el DataFrame


```python
# n valores mínimos
dfp.sort_values(['altura'], ascending=[False], inplace=True) 
dfp.head(10)

# n valores máximos
dfp.sort_values(['Pob-cap'], ascending=[True], inplace=True)
dfp.head(10)
```
Filtrado por múltiples columnas con diferentes criterios
```python
dfp[(dfp['Pais'].str.startswith('V')) & (dfp['altura'] > 161)]
# Filtro donde los paises pertenecen al Contiente sea Asia, la población sea superior a 100 y el Pib PC sea superior a 3.9

dfp[(dfp['C'] == 'a') & (dfp['Pobla'] > 100) & (dfp['Pib PC'].str.replace(',','.').astype(float)> 3.9)]

# filtrado de los paises donde la edad media sea superior a 25 y menor a 60
dfp[(dfp['Eda-Me'] > 25) & (dfp['Eda-Me'] < 60)]

# filtrado de los paises que tienen por moneda peso y la superficie es superior a 2000
dfp[(dfp['moneda'] == 'Peso') & (dfp['Superf'] > 2000)]

#valores únicos por columna
dfp['moneda'].unique()

```
Notese que las expresiones en los filtros se debe usar paréntesis ()



In [6]:
# Celda de código para probar


### Filtrar por valores de una columna

* Filtrar por una lista de profesores

```python
dfe1 = dfe[sel_columns]
lstp = ['Apolo', 'Eneas']
df1 = dfe1[dfe1.profesor.isin(lstp)]
df1
```

* Reemplazo de valores numéricos por categorías

```python

dicn = {3.0:'Tres', 2.0:'dos', 1.5:'uno y medio', 1.0:'uno', 
        0.5:'medio', 0:'cero', 3.5:'tres y medio', 4:'cuatro', 
        2.5:'dos y medio', 5:'Cinco', 4.5:'cuatro y medio'}
dfe1.nota = dfe1.nota.map(dicn)

```

* Filtrado de datos por lista de índices


```pyhton
lst = dfe1.profesor[dfe1.profesor=='Eneas'].index[:].to_list()
print(lst)
dfe1[dfe1.IDE.isin(lst)]
```





In [7]:
# Celda de código para probar


## __5. Guardar un DataFrame en un archivo .csv__

Usted puede generar un nuevo archivo .csv a partir de un DataFrame. Para este caso se generará un nuevo archivo que contenga solo los paises que tienen por moneda el dólar con todas las columnas que este tiene definidas.

Usted puede especificar la codificación y el separador con el cual la función *to_csv(...)* va a construir el nuevo archivo.

```python
# filtro de DataFrame por moneda
dfp_ca = dfp[dfp['moneda']== 'Dólar']
dfp_ca
# escribiendo archivo
dfp_ca.to_csv('paises_continte_americano.csv', sep=';',encoding='utf-8')
```
La función *to_csv* reemplazará el archivo y todo el contenido original en caso de que usted deje el mísmo nombre de archivo. 


In [None]:
# Celda de código para probar

#### 1.4 Guardar un DataFrame en un archivo .xlsx

Para guardar un DataFrame en un arhivo de Excel usted debería utilizar la función *to_excel*. Esta permite crear un nuevo archivo el cual contendrá los datos del DataFrame con sus respectivas columnas. Dentro de la función se puede especificar el nombre de hoja.

Ahora se quiere guardar el archivo **.csv** ('pais.csv') en un solo archivo **.xlsx** con dos hojas separadas para los países de América y Europa.

```python
dfp[(dfp['c']=='m')].to_excel("DataFramePaises.xlsx", sheet_name='america')
dfp[(dfp['c']=='e')].to_excel("DataFramePaises.xlsx", sheet_name='europa')
```
Valide el resultado. Usted se podrá dar cuenta que el archivo no contiene las dos hojas. Esto indica que la función *to_excel* no añade la otra hoja, sino que sobreescribe completamente el archivo.


In [None]:
# Celda de código para probar

En caso de que usted necesite en un solo archivo de Excel añadir más de una hoja y no perder el contenido, usted deberá utilizar la función *ExcelWriter* de pandas. Esta función recibe por argumentos la ruta con el nombre del archivo, y si lo requiere, el modo de uso del archivo.
```python
# extracción de los primeros 100 registros del DataFrame del archivo base.xlsx - Religion.csv
dfp1 = dfp.iloc[:101]
dfp1
dfp2 = dfp.iloc[101:]
dfp2
with pd.ExcelWriter('PaisesTrozos.xlsx') as writer:
    # añadiendo todo el dataframe
    dfp.to_excel(writer, sheet_name='t1')
    # añadiendo los primeros 100 registros.
    dfrp.to_excel(writer, sheet_name='t2')
```
Notese que se guarda una porción del dataframe.

In [None]:
# Celda de código para probar

NameError: name 'dfp' is not defined