# Operaciones básicas con dataframes

**Temas:**


* Cargar información con `pandas`
* Acceso
* Ordenamiento 
* Filtrado
* Guardar información con `pandas`


## _Ubicación actual, cambio de ubicación._


Piense que ahora está en su computador, de hecho lo está, es una maquina virtual donde usted puede trabajar con un interprete de código `Python`.

In [1]:
pwd ## Fichero de ubicación actual

'/home/andres/Documentos/jupyter_books/Programacion_Python'

_Nota:_

Dependiendo de donde esté trabajando, debe tener en cuenta su ubicación actual (pwd) y apartir de allí cambiar de fichero si lo necesita (cd), piense que entra ingresando con lo hace normalmente al moverse en ficheros dentro de otros ficheros.

In [2]:
ls -l ## Listar ficheros y documentos de la ubicación actual

total 1728
drwxrwxr-x 5 andres andres   4096 jun 30 00:11 [0m[01;34m_build[0m/
-rw-rw-r-- 1 andres andres   9205 jun 30 15:08 Clases_Python.ipynb
-rw-rw-r-- 1 andres andres   1006 jun 30 00:48 _config.yml
drwxrwxr-x 5 andres andres   4096 jun 30 11:44 [01;34mdatas[0m/
-rw-rw-r-- 1 andres andres      0 jun 30 00:48 hello.txt
-rw-rw-r-- 1 andres andres    754 jun 30 00:48 intro.md
-rw-rw-r-- 1 andres andres  12578 jun 30 14:53 Lectura_1_Intro_Markdown.ipynb
-rw-rw-r-- 1 andres andres  74882 jun 30 15:12 Lectura_2_elementos_basicos_Python.ipynb
-rw-rw-r-- 1 andres andres 219115 jun 30 15:12 Lectura_3_Defi_Function_Python.ipynb
-rw-rw-r-- 1 andres andres  74751 jun 30 15:13 Lectura_4_estruc_Datos_Python.ipynb
-rw-rw-r-- 1 andres andres  48871 jun 30 15:13 Lectura_5_Pandas_Series_DataFrame.ipynb
-rw-rw-r-- 1 andres andres 212741 jun 30 12:44 Lectura_6.0_Mas_de_Pandas.ipynb
-rw-rw-r-- 1 andres andres 715303 jun 30 15:30 Lectura_6.1_operacionesBásicasDataframes.ipynb
-rw-rw-r-- 1 andres 

In [3]:
#%%capture
#!pip install --upgrade xlrd

## __Dataframes__

¿Qué es un dataframe?

¿Cuál es la estructura de un dataframe? filas, columnas, encabezados de columna, tipos de datos. 

Acá puede consultar un resumen de lo presentado [towards data science: dataframes.](https://towardsdatascience.com/pandas-dataframe-a-lightweight-intro-680e3a212b96)

## __1 - Cargar información con pandas__


![pandas](https://miro.medium.com/max/1400/0*WprttYz2ksxsdXBH)
 
Pandas proporciona facilidades para la recuperación simple de datos de una variedad de fuentes como objetos de pandas. Para este notebook se usarán varios conjunto de datos del fichero `datas`. Importe la librería de **Pandas** y **NumPy**.


```Python
# importando librerías 
import pandas as pd
import numpy as np
```

In [4]:
# importando librerías 
import pandas as pd
import numpy as np

## Cargando datos en un DataFrame a partir de archivos.

La librería `pandas` facilita la obtención de datos desde diferentes tipos de fuentes. Algunas fuentes de datos pueden estar en archivos de extensiones **.csv**, **.txt**, **.json**, **.xls**  y de **xlsx**. A continuación usted podrá cargar un archivo de excel. 

Como recomendación, procure dejar en una celda independiente para la lectura de los datos. Esta lectura tiene un costo de carga en recursos de máquina que puede impactar su trabajo y el entorno de `Python` si se esta ejecutando continuamente.

```Python
url_datos = 'datas/examen2.xlsx' # url local del archivo a leer
df_Excel= pd.ExcelFile(url_datos) # lectura del archivo
df_Excel # ¿Qué obtenemos?
```

In [5]:
# celda de código para probar 
url_datos = 'datas/examen2.xlsx' # url local del archivo a leer
df_Excel= pd.ExcelFile(url_datos)
print(df_Excel)

<pandas.io.excel._base.ExcelFile object at 0x7f3f4d574190>


En el uso anterior del método `.ExcelFile()` hemos traido el archivo, pero aún no un dataframe de `pandas`, más información del método [acá.](https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html)

In [6]:
# Todos los sheets del archivo
df_Excel.sheet_names, type(df_Excel.sheet_names)

(['estudiante', 'profesor', 'grupo', 'listado', 'examen', 'cita'], list)

In [7]:
# Podemos obtener todas los sheest, ahora como pandas-DataFrame
sheets = []
for sheet in df_Excel.sheet_names:
    sheets.append(df_Excel.parse(sheet))
    print("*"*80)
    display(df_Excel.parse(sheet)) ## display(dataframe/serie) despliega el pandas-DataFrame

#sheets ## Tenemos todos los pandas-DataFrame en la lista sheets.

********************************************************************************


Unnamed: 0,IDE,programa
0,1500,Ingeniería Mecánica
1,1501,Ingeniería Ambiental
2,1502,Ingeniería De Sistemas
3,1503,Ingeniería Ambiental
4,1504,Ingeniería Ambiental
...,...,...
612,2112,Ingeniería Ambiental
613,2113,Ingeniería Ambiental
614,2114,Ingeniería De Sistemas
615,2115,Ingeniería De Sistemas


********************************************************************************


Unnamed: 0,IDP,profesor,dedicacion
0,201,Patroclo,TC
1,202,Andrómaca,Cátedra
2,203,Artemisa,TC
3,204,Eneas,Cátedra
4,205,Néstor,Cátedra
5,206,Aquiles,Cátedra
6,207,Briseida,TC
7,208,Menelao,Cátedra
8,209,Héctor,Cátedra
9,210,Agamenón,Cátedra


********************************************************************************


Unnamed: 0,IDG,curso,creditos,IDP,nestud,periodo,año,jornada
0,G1,Algoritmos y programación,3,217,23,2,2017,día
1,G2,Algoritmos y programación,3,222,23,2,2017,día
2,G3,Algoritmos y programación,3,210,21,2,2017,día
3,G4,Algoritmos y programación,3,213,22,2,2017,día
4,G5,Algoritmos y programación,3,210,21,2,2017,día
5,G6,Algoritmos y programación,3,222,22,2,2017,día
6,G7,Algoritmos y programación,3,203,20,2,2017,día
7,G8,Algoritmos y programación,3,220,23,2,2017,día
8,G9,Algoritmos y programación,3,219,24,2,2017,día
9,G10,Algoritmos y programación,3,203,20,2,2017,día


********************************************************************************


Unnamed: 0,IDE,IDG,corte1,corte2,prom,fallas,fallaP
0,1529,G1,4.0,2.0,3.00,0,0.00
1,1546,G1,3.0,0.5,1.75,2,11.76
2,1611,G1,4.0,2.0,3.00,0,0.00
3,1646,G1,4.5,3.0,3.75,0,0.00
4,1668,G1,4.0,2.5,3.25,0,0.00
...,...,...,...,...,...,...,...
612,1980,G33,5.0,4.0,4.50,0,0.00
613,1996,G33,4.5,4.0,4.25,0,0.00
614,2054,G33,3.5,4.0,3.75,0,0.00
615,2055,G33,4.5,4.5,4.50,0,0.00


********************************************************************************


Unnamed: 0,IDE,inicio,final,nota,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1502,18:30:00,19:09:00,2.0,0.0,0.5,0.0,0.0,0.5,,0.0,0.5,0.5,0.0
1,1503,09:05:00,10:13:00,1.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.5
2,1504,09:24:00,10:04:00,1.0,0.0,0.5,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0
3,1505,09:09:00,09:48:00,5.0,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
4,1507,18:36:00,19:00:00,0.5,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
512,2110,09:12:00,10:15:00,1.0,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0
513,2111,09:22:00,10:00:00,3.0,0.5,0.5,0.0,0.0,0.5,0.0,0.0,0.5,0.5,0.5
514,2112,18:20:00,19:16:00,1.5,0.0,0.0,0.5,0.0,0.0,0.0,0.5,0.0,0.0,0.5
515,2114,18:09:00,19:42:00,1.5,0.0,0.0,0.0,0.0,0.5,0.5,0.0,0.0,0.5,0.0


********************************************************************************


Unnamed: 0,IDE,nsala,sala,horaExamen,jornada
0,1529,18,Centro de Computo Sala 9,9:00 a.m.,día
1,1546,6,Centro de Computo Sala 10,9:00 a.m.,día
2,1611,17,Centro de Computo Sala 8,9:00 a.m.,día
3,1646,15,Centro de Computo Sala 6,9:00 a.m.,día
4,1668,14,Centro de Computo Sala 5,9:00 a.m.,día
...,...,...,...,...,...
612,1980,5,Diseño Y Simulación Sala II,9:00 a.m.,día
613,1996,10,Centro de Computo Sala 14,9:00 a.m.,día
614,2054,6,Centro de Computo Sala 10,9:00 a.m.,día
615,2055,8,Centro de Computo Sala 12,9:00 a.m.,día


In [8]:
sheets[-1]

Unnamed: 0,IDE,nsala,sala,horaExamen,jornada
0,1529,18,Centro de Computo Sala 9,9:00 a.m.,día
1,1546,6,Centro de Computo Sala 10,9:00 a.m.,día
2,1611,17,Centro de Computo Sala 8,9:00 a.m.,día
3,1646,15,Centro de Computo Sala 6,9:00 a.m.,día
4,1668,14,Centro de Computo Sala 5,9:00 a.m.,día
...,...,...,...,...,...
612,1980,5,Diseño Y Simulación Sala II,9:00 a.m.,día
613,1996,10,Centro de Computo Sala 14,9:00 a.m.,día
614,2054,6,Centro de Computo Sala 10,9:00 a.m.,día
615,2055,8,Centro de Computo Sala 12,9:00 a.m.,día


Otra manera de leer archivos xlsx, o xls, es con el método `read_excel()`, note que en este caso solo trae por default el primer sheet, en caso de desear traer un sheet particular se debe proporcionar su nombre (o posición). El método tiene muchos parámetros, la información ampliada la puede encontrar en la [documentación oficial.](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

```Python
df_datos = pd.read_excel(url_datos)                      
df_ind_col = pd.read_excel(url_datos, 'profesor')   # lectura del archivo especificando la hoja
```
No siempre es necesario especificar el nombre de la hoja del archivo. Pandas por defecto tomará la primera. Ahora usted en una nueva celda puede llamar los DataFrame creados a partir de la lectura de los archivos.

In [9]:
df_datos = pd.read_excel(url_datos)                 # lectura del archivo 
df_ind_col = pd.read_excel(url_datos, 'profesor')   # lectura del archivo especificando la hoja

In [10]:
display(df_datos)

Unnamed: 0,IDE,programa
0,1500,Ingeniería Mecánica
1,1501,Ingeniería Ambiental
2,1502,Ingeniería De Sistemas
3,1503,Ingeniería Ambiental
4,1504,Ingeniería Ambiental
...,...,...
612,2112,Ingeniería Ambiental
613,2113,Ingeniería Ambiental
614,2114,Ingeniería De Sistemas
615,2115,Ingeniería De Sistemas


In [11]:
df_ind_col

Unnamed: 0,IDP,profesor,dedicacion
0,201,Patroclo,TC
1,202,Andrómaca,Cátedra
2,203,Artemisa,TC
3,204,Eneas,Cátedra
4,205,Néstor,Cátedra
5,206,Aquiles,Cátedra
6,207,Briseida,TC
7,208,Menelao,Cátedra
8,209,Héctor,Cátedra
9,210,Agamenón,Cátedra


_Ejercicio._

Pruebe algunos de los parametros de `read_excel()` y deje los comentarios que le sean relevantes.

In [12]:
#help(pd.read_excel)

In [13]:
#pd.read_excel(url_datos, "profesor", index_col = [0,2]) ## Podemos establecer una columna como índice. Será de uso en los merges.
#pd.read_excel(url_datos, "profesor", header= 0, names = ["col1","col2"]) # Podemos cambiar el nombre de las columnas.
#pd.read_excel(url_datos, "examen", names = ["col1","col2"])
#pd.read_excel(url_datos, "examen", header= 10) # Del sheet "examen", el registro 11 será la cabecera.
#pd.read_excel(url_datos, [0,1,2,3,4,5]) # En este caso podemos obtener todos sheets como un diccionario.
#pd.read_excel(url_datos, "profesor", skipfooter=5, skiprows=[1,2]) ## Eliminar los últimos 5 registros y los 2 primeros (Index=0)
### Diccionario con keys los nombres de los sheets.

In [14]:
pd.read_excel(url_datos, None)["cita"]

Unnamed: 0,IDE,nsala,sala,horaExamen,jornada
0,1529,18,Centro de Computo Sala 9,9:00 a.m.,día
1,1546,6,Centro de Computo Sala 10,9:00 a.m.,día
2,1611,17,Centro de Computo Sala 8,9:00 a.m.,día
3,1646,15,Centro de Computo Sala 6,9:00 a.m.,día
4,1668,14,Centro de Computo Sala 5,9:00 a.m.,día
...,...,...,...,...,...
612,1980,5,Diseño Y Simulación Sala II,9:00 a.m.,día
613,1996,10,Centro de Computo Sala 14,9:00 a.m.,día
614,2054,6,Centro de Computo Sala 10,9:00 a.m.,día
615,2055,8,Centro de Computo Sala 12,9:00 a.m.,día


### Cargar un archivo CSV.

Defina el nombre del DataFrame sobre el cual va a cargar los datos del archivo e invoque la instrucción *read_csv* de lectura de archivos **.csv**.

```Python
URL_pais = 'datas/pais.csv'

dfp = pd.read_csv(URL_pais, sep=',', ## El separador por default es ",".
                  encoding='utf-8') ## Tipo de codificación del archivo (reconodimiento de caracteres especiales en la lectura)

print('País (Registros, columnas):', dfp.shape)
print('País (nombre columnas):', dfp.columns)
print('País (tipos):', dfp.dtypes)
dfp.head()
```

In [15]:
# celda de código para probar
URL_pais = 'datas/pais.csv' 
dfp = pd.read_csv(URL_pais, sep = ",", encoding='utf-8') ## El separador por default es ","
dfp

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.000,Euro,Colina Vaticana,75,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,207.353,8515.767,Real,Pico da Neblina,2995,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,326.625,9826.000,Dólar,Monte McKinley (Denali),6190,4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,35.623,9984.670,Dólar,Monte Logan,5959,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [16]:
print('País (Registros, columnas):', dfp.shape)

País (Registros, columnas): (200, 18)


In [17]:
print('País (nombre columnas):', dfp.columns)

País (nombre columnas): Index(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda', 'punto mas alto',
       'altura', 'Pob-cap', 'Per-pob', 'Pib PC', 'Nominal', 'Eda-Me', 'E-vida',
       'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype='object')


In [18]:
for i, colum in enumerate(dfp.columns.values): ## enumerate: enumera un objeto iterable.
  print(i,colum)

0 C
1 Pais
2 capital
3 Pobla
4 Superf
5 moneda
6 punto mas alto
7 altura
8 Pob-cap
9 Per-pob
10 Pib PC
11 Nominal
12 Eda-Me
13 E-vida
14 Cultiv
15 Fertil
16 Escol
17 Dens


In [19]:
print('País (tipos):\n', dfp.dtypes)

País (tipos):
 C                  object
Pais               object
capital            object
Pobla             float64
Superf            float64
moneda             object
punto mas alto     object
altura              int64
Pob-cap           float64
Per-pob            object
Pib PC             object
Nominal           float64
Eda-Me            float64
E-vida            float64
Cultiv            float64
Fertil            float64
Escol             float64
Dens              float64
dtype: object


In [20]:
dfp.head()

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.0,Euro,Colina Vaticana,75,1.0,100.0%,,0.0,,,0.0,0.0,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700.0,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.01,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600.0,0.1,26.4,67.4,0.0,2.8,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.0,54.3%,3500.0,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.0,11.9%,59500.0,1.59,44.4,83.3,16.7,1.5,15.0,549.8


### _Ejercicio._

Defina el nombre del DataFrame sobre el cual va a cargar los datos del archivo e invoque la instrucción *read_csv* de lectura de archivos **.csv**.

```Python
URL_iris = 'data/iris.csv' # URL de acceso al archivo
```
Luego

```Python
dfi = pd.read_csv(URL_iris, sep=',', encoding='utf-8')
```


* Hacer lo mismo que en el ejemplo anterior para los datos de 'iris' definiendo una función.

```Python
# argumentos de la función:
# URL donde se encuentra el archivo
# separardor que utiliza el archivo
# tipo de codificación del archivo (reconocimiento de caracteres especiales en la lectura)
```


In [21]:
URL_iris = 'datas/iris.csv' # URL de acceso al archivo
dfi = pd.read_csv(URL_iris, sep=',', encoding='utf-8')
dfi

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [22]:
dfi.head(10)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa


In [23]:
dfi.tail(2)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [24]:
# argumentos de la función:
# URL donde se encuentra el archivo
# separardor que utiliza el archivo
# tipo de codificación del archivo (reconocimiento de caracteres especiales en la lectura)
def info_df(url,codificacion, sep1=","):
    df = pd.read_csv(url, encoding=codificacion, sep = sep1)
    print(df.shape)
    print(df.columns)
    print(df.head())
    print(df.dtypes)
    return df

In [25]:
info_df('datas/iris.csv','utf-8')

(150, 5)
Index(['sepal.length', 'sepal.width', 'petal.length', 'petal.width',
       'variety'],
      dtype='object')
   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa
sepal.length    float64
sepal.width     float64
petal.length    float64
petal.width     float64
variety          object
dtype: object


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [26]:
print(dfi.columns)
print(dfi.dtypes)

Index(['sepal.length', 'sepal.width', 'petal.length', 'petal.width',
       'variety'],
      dtype='object')
sepal.length    float64
sepal.width     float64
petal.length    float64
petal.width     float64
variety          object
dtype: object


In [27]:
def info_df(url, coding, sep = ","):
    df = pd.read_csv(url)
    print("*"*100)
    print('País (Registros, columnas):', df.shape)
    print("*"*100)
    print('País (nombre columnas):', df.columns)
    print("*"*100,'\nPaís (tipos):')
    print(df.dtypes)
    print("*"*100)
    display(dfp.head())

info_df('datas/iris.csv','utf-8')

****************************************************************************************************
País (Registros, columnas): (150, 5)
****************************************************************************************************
País (nombre columnas): Index(['sepal.length', 'sepal.width', 'petal.length', 'petal.width',
       'variety'],
      dtype='object')
**************************************************************************************************** 
País (tipos):
sepal.length    float64
sepal.width     float64
petal.length    float64
petal.width     float64
variety          object
dtype: object
****************************************************************************************************


Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.0,Euro,Colina Vaticana,75,1.0,100.0%,,0.0,,,0.0,0.0,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700.0,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.01,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600.0,0.1,26.4,67.4,0.0,2.8,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.0,54.3%,3500.0,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.0,11.9%,59500.0,1.59,44.4,83.3,16.7,1.5,15.0,549.8


## Información de un dataframe

- Forma: `dfp.shape`
- Nombre las columnas: `dfp.columns`
- Tipos de datos de las columnas: `dfp.dtypes`
- Tipo de dato del data frame o de una serie: `type`
- Despliegue del dataframe: `display(dfp)` 
    - Despliegue de los primeros registros: `display(dfp.head(10))`
    - Despliegue de los últimas registros: `display(dfp.tail(12))`
    - Despliegue de una muestra aleatorea de 8 registros: `display(dfp.sample(8))`

### _Ejercicio._

Haga uso de las funciones y métodos anteriores, pruébelos todas en las siguientes lineas de código. Amplie la función creada del ejercicio anterior

In [28]:
# Celda para probar el código.
print("El tamaño del dataframe es:",dfp.shape)
print("El número de resgistrso es:", dfp.shape[0],)
print("El número de columnas es:", dfp.shape[1])

El tamaño del dataframe es: (200, 18)
El número de resgistrso es: 200
El número de columnas es: 18


In [29]:
dfp.columns

Index(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda', 'punto mas alto',
       'altura', 'Pob-cap', 'Per-pob', 'Pib PC', 'Nominal', 'Eda-Me', 'E-vida',
       'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype='object')

In [30]:
# Tenemos un array (como elemento de Numpy)
dfp.columns.values

array(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda',
       'punto mas alto', 'altura', 'Pob-cap', 'Per-pob', 'Pib PC',
       'Nominal', 'Eda-Me', 'E-vida', 'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype=object)

In [31]:
dfp.dtypes ## Serie de pandas

C                  object
Pais               object
capital            object
Pobla             float64
Superf            float64
moneda             object
punto mas alto     object
altura              int64
Pob-cap           float64
Per-pob            object
Pib PC             object
Nominal           float64
Eda-Me            float64
E-vida            float64
Cultiv            float64
Fertil            float64
Escol             float64
Dens              float64
dtype: object

In [32]:
display(dfp)

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.000,Euro,Colina Vaticana,75,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,207.353,8515.767,Real,Pico da Neblina,2995,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,326.625,9826.000,Dólar,Monte McKinley (Denali),6190,4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,35.623,9984.670,Dólar,Monte Logan,5959,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [33]:
display(dfp.head(10))

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.0,Euro,Colina Vaticana,75,1.0,100.0%,,0.0,,,0.0,0.0,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700.0,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.01,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600.0,0.1,26.4,67.4,0.0,2.8,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.0,54.3%,3500.0,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.0,11.9%,59500.0,1.59,44.4,83.3,16.7,1.5,15.0,549.8
5,e,Liechtenstein,Vaduz,0.038,0.16,Franco,Grauspitz,2599,5.248,13.7%,139100.0,6.67,43.2,81.9,18.8,1.69,15.0,239.0
6,o,Islas Marshall,Majuro,0.075,0.181,Dólar,"Sin nombre, atolón de Likiep",10,31.0,41.6%,3300.0,0.19,22.9,73.4,7.8,3.03,,411.6
7,m,San Cristobal y Nieves,Baseterre,0.053,0.261,Dólar,Monte Liamuiga,1156,14.0,26.6%,26100.0,0.9,35.0,75.9,19.2,1.77,14.0,202.0
8,a,Maldivas,Male,0.392,0.298,Rupia,"Sin nombre, atolón de Seenu",2,156.0,39.8%,15500.0,4.24,28.2,75.8,10.0,1.73,,1315.4
9,e,Malta,La Valetta,0.416,0.316,Euro,Ta'Dmejrek,253,197.0,47.4%,39900.0,11.0,41.8,80.5,28.4,1.55,15.0,1316.5


In [34]:
display(dfp.tail(12))

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
188,a,Arabia saudi,Riad,28.572,2149.69,Riyal,Jabal Sawda,3133,6195.0,21.7%,55200,646.4,27.5,75.5,1.5,2.09,16.0,13.3
189,f,Rep Democ Congo,Kinshasa,83.301,2344.858,Franco,Pico Margarita en el Monte Stanley,5109,11587.0,13.9%,800,39.32,18.6,57.7,3.1,4.39,9.0,35.5
190,f,Argelia,Argel,40.969,2381.741,Dinar,Tahat,3003,2594.0,6.3%,15000,159.0,28.1,77.0,3.1,2.7,14.0,17.2
191,a,Kazajistan,Astana,18.556,2725.0,Tengue,Khan Tengri,7010,1523.0,8.2%,25100,133.7,30.6,71.1,8.9,2.25,15.0,6.8
192,m,Argentina,Buenos Aires,44.293,2780.4,Peso,Aconcagua,6964,15180.0,34.3%,20000,544.7,31.7,77.3,13.9,2.26,17.0,15.9
193,a,India,Nueva Delhi,1282.0,3287.0,Rupia,Kanchenjunga,8586,25703.0,2.0%,6600,2264.0,27.9,68.8,52.8,2.43,12.0,390.0
194,o,Australia,Canberra,23.232,7741.22,Dólar,Pico Mawson en la Isla Heard,2745,423.0,1.8%,48900,1262.0,38.7,82.3,6.2,1.77,20.0,3.0
195,m,Brasil,Brasilia,207.353,8515.767,Real,Pico da Neblina,2995,4155.0,2.0%,15200,1799.0,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.0,1.5%,15400,11230.0,37.4,75.7,11.3,1.6,14.0,143.7
197,m,Estados unidos,Washinton D.C.,326.625,9826.0,Dólar,Monte McKinley (Denali),6190,4955.0,1.5%,57400,18620.0,38.1,80.0,16.8,1.87,17.0,33.2


In [35]:
## Muestra aleatoria del dataframe
display(dfp.sample(8))

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
186,a,Indonesia,Yakarta,260.58,1904.0,Rupia,Puncak Jaya (Monte Carstensz),4884,10323.0,4.0%,11700,932.4,30.2,73.0,13.0,2.11,13.0,136.9
38,m,Jamaica,Kingston,2.99,11.0,Dólar,Pico Montaña Azul,2256,588.0,19.7%,9000,13.96,26.0,73.7,11.1,1.96,,271.8
168,m,Venezuela,Caracas,31.304,912.05,Bolívar,Pico Bolívar,4978,2916.0,9.3%,13800,236.4,28.3,76.0,3.1,2.32,14.0,34.3
136,e,Finlandia,Helsinki,5.518,338.145,Euro,Halti,1324,1180.0,21.4%,42400,238.6,42.5,81.0,7.4,1.75,19.0,16.3
86,a,Emiratos arabes un,Abu Dabi,6.072,83.6,Dirham,"Sin nombre, oeste Jabal Bil Ays",1910,2415.0,39.8%,67900,348.7,30.3,77.7,0.5,2.32,,72.6
51,m,Belice,Belmopan,0.36,23.0,Dólar,Doyle's Delight,1124,17.0,4.7%,8200,1.74,22.7,68.9,3.3,2.85,13.0,15.7
49,a,Israel,Jerusalem,8.3,20.77,Nuevo Shekel,Merón o Hermón,2236,839.0,10.1%,35200,317.7,29.9,82.5,13.7,2.64,16.0,399.6
175,m,Colombia,Bogotá,47.698,1138.91,Peso,Pico Colón o Bolívar,5700,9765.0,20.5%,14100,282.4,30.0,75.9,1.4,2.0,14.0,41.9


### _Ejercicio._

Pruebe el siguiente código:

```Python
URL_datos = 'datas/examen.xlsx'                    # URL local del archivo a leer
dfe = pd.read_excel(URL_datos)                     # lectura del archivo 
dfx = pd.read_excel(URL_datos, 'examen1')          # lectura del archivo especificando la hoja
```

* Corregir el error al momento de cargar la hoja especificada del archivo.
* Utilice un método adecuado para determinar todos los sheets del archivo.
* Realizar una función para mostrar la información del dataframe: forma, columnas, tipos de datos y muestra de los elementos.


In [36]:
ls -l datas/

total 1980
-rw-rw-r-- 1 andres andres 167054 jun 30 11:44  Athelete_Country_Map.csv
-rw-rw-r-- 1 andres andres 173705 jun 30 11:44  Athelete_Sports_Map.csv
-rw-rw-r-- 1 andres andres  10955 jun 30 12:21  DataFramePaises.xlsx
drwxrwxr-x 2 andres andres   4096 jun 30 11:44  [0m[01;34mdata_grap[0m/
drwxrwxr-x 2 andres andres   4096 jun 30 11:44  [01;34mdata_plotly[0m/
drwxrwxr-x 2 andres andres   4096 jun 30 11:44  [01;34mdata_seaborn[0m/
-rw-rw-r-- 1 andres andres 145031 jun 30 11:44  downloaded_medals.csv
-rw-rw-r-- 1 andres andres 292130 jun 30 11:44  downloaded_medals.json
-rw-rw-r-- 1 andres andres 348160 jun 30 11:44  downloaded_medals.xls
-rw-rw-r-- 1 andres andres  83015 jun 30 11:44  examen2.xlsx
-rw-rw-r-- 1 andres andres  77902 jun 30 11:44  examen.xlsx
-rw-rw-r-- 1 andres andres  33889 jun 30 11:44  exer_datetime.csv
-rw-rw-r-- 1 andres andres  54682 jun 30 11:44  fragmento.txt
-rw-rw-r-- 1 andres andres   3975 jun 30 11:44  iris.csv
-rw-rw-r-- 1 andres andres 361163 ju

In [37]:
URL_datos = 'datas/examen.xlsx'                         # URL local del archivo a leer
dfe = pd.read_excel(URL_datos)
#dfx = pd.read_excel(URL_datos, 'examen1')               # lectura del archivo 
dfe

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP,curso,creditos,...,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1500,Ingeniería Mecánica,G5,1.0,1.0,1.00,0,0.00,Algoritmos y programación,3,...,,,,,,,,,,
1,1620,Ingeniería Ambiental,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1675,Ingeniería De Sistemas,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1702,Ingeniería Ambiental,G5,4.0,3.5,3.75,0,0.00,Algoritmos y programación,3,...,0.0,0.0,0.0,0.5,0.0,0.5,0.0,0.5,0.5,0.0
4,1706,Ingeniería De Sistemas,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.5,0.5,0.0,0.5,0.5,0.5,0.0,0.0,0.5,0.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
614,1988,Ingeniería Mecánica,G19,4.5,4.5,4.50,3,17.65,Algoritmos y programación,3,...,0.5,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.5
615,2014,Ingeniería De Sistemas,G19,3.0,2.0,2.50,3,17.65,Algoritmos y programación,3,...,0.0,0.5,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0
616,2070,Ingeniería Ambiental,G19,4.0,3.5,3.75,3,17.65,Algoritmos y programación,3,...,0.0,0.0,0.5,0.0,0.0,0.0,0.5,0.5,0.5,0.5
617,2098,Ingeniería Ambiental,G19,3.5,3.5,3.50,2,11.76,Algoritmos y programación,3,...,0.5,0.5,0.5,0.0,0.0,0.0,0.0,0.5,0.0,0.5


In [38]:
# Solución del error
dfx = pd.read_excel(URL_datos, None) ## Obtenemos un dict(), donde las keys son los sheets-names

In [39]:
for key in dfx.keys():
  print(key)

examen


In [40]:
dfx["examen"] ## Como el valor de la key "examen"

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP,curso,creditos,...,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1500,Ingeniería Mecánica,G5,1.0,1.0,1.00,0,0.00,Algoritmos y programación,3,...,,,,,,,,,,
1,1620,Ingeniería Ambiental,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1675,Ingeniería De Sistemas,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1702,Ingeniería Ambiental,G5,4.0,3.5,3.75,0,0.00,Algoritmos y programación,3,...,0.0,0.0,0.0,0.5,0.0,0.5,0.0,0.5,0.5,0.0
4,1706,Ingeniería De Sistemas,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.5,0.5,0.0,0.5,0.5,0.5,0.0,0.0,0.5,0.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
614,1988,Ingeniería Mecánica,G19,4.5,4.5,4.50,3,17.65,Algoritmos y programación,3,...,0.5,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.5
615,2014,Ingeniería De Sistemas,G19,3.0,2.0,2.50,3,17.65,Algoritmos y programación,3,...,0.0,0.5,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0
616,2070,Ingeniería Ambiental,G19,4.0,3.5,3.75,3,17.65,Algoritmos y programación,3,...,0.0,0.0,0.5,0.0,0.0,0.0,0.5,0.5,0.5,0.5
617,2098,Ingeniería Ambiental,G19,3.5,3.5,3.50,2,11.76,Algoritmos y programación,3,...,0.5,0.5,0.5,0.0,0.0,0.0,0.0,0.5,0.0,0.5


In [41]:
# Despúes de observar el diccionario tenemos el nombre de la hoja.
dfx = pd.read_excel(URL_datos, 'examen')
dfx

Unnamed: 0,IDE,programa,IDG,corte1,corte2,prom,fallas,fallaP,curso,creditos,...,p1,p2,p3,p4,p5,p6,p7,p8,p9,p10
0,1500,Ingeniería Mecánica,G5,1.0,1.0,1.00,0,0.00,Algoritmos y programación,3,...,,,,,,,,,,
1,1620,Ingeniería Ambiental,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1675,Ingeniería De Sistemas,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1702,Ingeniería Ambiental,G5,4.0,3.5,3.75,0,0.00,Algoritmos y programación,3,...,0.0,0.0,0.0,0.5,0.0,0.5,0.0,0.5,0.5,0.0
4,1706,Ingeniería De Sistemas,G5,4.0,3.0,3.50,0,0.00,Algoritmos y programación,3,...,0.5,0.5,0.0,0.5,0.5,0.5,0.0,0.0,0.5,0.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
614,1988,Ingeniería Mecánica,G19,4.5,4.5,4.50,3,17.65,Algoritmos y programación,3,...,0.5,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.5
615,2014,Ingeniería De Sistemas,G19,3.0,2.0,2.50,3,17.65,Algoritmos y programación,3,...,0.0,0.5,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0
616,2070,Ingeniería Ambiental,G19,4.0,3.5,3.75,3,17.65,Algoritmos y programación,3,...,0.0,0.0,0.5,0.0,0.0,0.0,0.5,0.5,0.5,0.5
617,2098,Ingeniería Ambiental,G19,3.5,3.5,3.50,2,11.76,Algoritmos y programación,3,...,0.5,0.5,0.5,0.0,0.0,0.0,0.0,0.5,0.0,0.5


In [42]:
URL_datos = 'datas/examen.xlsx'                    # URL local del archivo a leer
dfe = pd.read_excel(URL_datos)                     # lectura del archivo 
dfx = pd.read_excel(URL_datos, 'examen')          # lectura del archivo especificando la hoja

In [43]:
for value in pd.read_excel(URL_datos, None).values():
  print(value)

      IDE                programa  IDG  corte1  corte2  prom  fallas  fallaP  \
0    1500     Ingeniería Mecánica   G5     1.0     1.0  1.00       0    0.00   
1    1620    Ingeniería Ambiental   G5     4.0     3.0  3.50       0    0.00   
2    1675  Ingeniería De Sistemas   G5     4.0     3.0  3.50       0    0.00   
3    1702    Ingeniería Ambiental   G5     4.0     3.5  3.75       0    0.00   
4    1706  Ingeniería De Sistemas   G5     4.0     3.0  3.50       0    0.00   
..    ...                     ...  ...     ...     ...   ...     ...     ...   
614  1988     Ingeniería Mecánica  G19     4.5     4.5  4.50       3   17.65   
615  2014  Ingeniería De Sistemas  G19     3.0     2.0  2.50       3   17.65   
616  2070    Ingeniería Ambiental  G19     4.0     3.5  3.75       3   17.65   
617  2098    Ingeniería Ambiental  G19     3.5     3.5  3.50       2   11.76   
618  2108  Ingeniería Electrónica  G19     4.0     3.5  3.75       2   11.76   

                         curso  credito

### _Ejercicio._

Revise el fichero datas, y cargue los demás archivos, en caso que se tenga un nuevo tipo de archivo, busque el método adecuado para cargarlo como un pandas-DataFrame y haga uso de la función construida en el ejercicio anterior.

**Hint:** Con el siguiente código puede ver todos los archivos en la ruta indicada.

```Python
import glob

list_of_files = glob.glob("datas/*")
list_of_files
```

In [44]:
import glob

list_of_files = glob.glob("datas/*")
list_of_files

['datas/paises_continente_americano.csv',
 'datas/iris.csv',
 'datas/Medals.csv',
 'datas/fragmento.txt',
 'datas/downloaded_medals.json',
 'datas/downloaded_medals.csv',
 'datas/data_grap',
 'datas/data_plotly',
 'datas/exer_datetime.csv',
 'datas/data_seaborn',
 'datas/DataFramePaises.xlsx',
 'datas/Athelete_Country_Map.csv',
 'datas/pais.csv',
 'datas/prueba.txt',
 'datas/Winter Olympic Medals.xlsx',
 'datas/examen2.xlsx',
 'datas/downloaded_medals.xls',
 'datas/stopWordsSPA.txt',
 'datas/Athelete_Sports_Map.csv',
 'datas/PaisesTrozos.xlsx',
 'datas/examen.xlsx']

In [45]:
df_json = pd.read_json('datas/downloaded_medals.json')
df_json

Unnamed: 0,City,Discipline,Event,Event gender,Medal,NOC,Sport,Year
0,Chamonix,Figure skating,individual,M,Silver,AUT,Skating,1924
1,Chamonix,Figure skating,individual,W,Gold,AUT,Skating,1924
2,Chamonix,Figure skating,pairs,X,Gold,AUT,Skating,1924
3,Chamonix,Bobsleigh,four-man,M,Bronze,BEL,Bobsleigh,1924
4,Chamonix,Ice Hockey,ice hockey,M,Gold,CAN,Ice Hockey,1924
...,...,...,...,...,...,...,...,...
2306,Turin,Snowboard,Half-pipe,M,Silver,USA,Skiing,2006
2307,Turin,Snowboard,Half-pipe,W,Gold,USA,Skiing,2006
2308,Turin,Snowboard,Half-pipe,W,Silver,USA,Skiing,2006
2309,Turin,Snowboard,Snowboard Cross,M,Gold,USA,Skiing,2006


In [46]:
df_text = pd.read_table('datas/stopWordsSPA.txt', header = None, names = ["Manual1"])
df_text

Unnamed: 0,Manual1
0,a
1,actualmente
2,adelante
3,además
4,afirmó
...,...
437,vosotros
438,voy
439,y
440,ya


In [47]:
df1 = pd.read_excel('datas/downloaded_medals.xls')
df1

Unnamed: 0.1,Unnamed: 0,City,Discipline,Event,Event gender,Medal,NOC,Sport,Year
0,0,Chamonix,Figure skating,individual,M,Silver,AUT,Skating,1924
1,1,Chamonix,Figure skating,individual,W,Gold,AUT,Skating,1924
2,2,Chamonix,Figure skating,pairs,X,Gold,AUT,Skating,1924
3,3,Chamonix,Bobsleigh,four-man,M,Bronze,BEL,Bobsleigh,1924
4,4,Chamonix,Ice Hockey,ice hockey,M,Gold,CAN,Ice Hockey,1924
...,...,...,...,...,...,...,...,...,...
2306,2306,Turin,Snowboard,Half-pipe,M,Silver,USA,Skiing,2006
2307,2307,Turin,Snowboard,Half-pipe,W,Gold,USA,Skiing,2006
2308,2308,Turin,Snowboard,Half-pipe,W,Silver,USA,Skiing,2006
2309,2309,Turin,Snowboard,Snowboard Cross,M,Gold,USA,Skiing,2006


In [48]:
df_medals = pd.read_csv('datas/Medals.csv',encoding='utf-8', encoding_errors="ignore")
df_medals

Unnamed: 0,Athlete,Age,Year,Closing Ceremony Date,Gold Medals,Silver Medals,Bronze Medals,Total Medals
0,Michael Phelps,23.0,2008,08/24/2008,8,0,0,8
1,Michael Phelps,19.0,2004,08/29/2004,6,0,2,8
2,Michael Phelps,27.0,2012,08/12/2012,4,2,0,6
3,Natalie Coughlin,25.0,2008,08/24/2008,1,2,3,6
4,Aleksey Nemov,24.0,2000,10/01/2000,2,1,3,6
...,...,...,...,...,...,...,...,...
8613,Olena Sadovnycha,32.0,2000,10/01/2000,0,1,0,1
8614,Kateryna Serdiuk,17.0,2000,10/01/2000,0,1,0,1
8615,Wietse van Alten,21.0,2000,10/01/2000,0,0,1,1
8616,Sandra Wagner-Sachse,31.0,2000,10/01/2000,0,0,1,1


In [49]:
df_Ath = pd.read_csv('datas/Athelete_Country_Map.csv', encoding='utf-8', encoding_errors="ignore")
df_Ath.head()

Unnamed: 0,Athlete,Country
0,Michael Phelps,United States
1,Natalie Coughlin,United States
2,Aleksey Nemov,Russia
3,Alicia Coutts,Australia
4,Missy Franklin,United States


In [50]:
df_Ath = pd.read_csv('datas/downloaded_medals.csv', encoding='utf-8')
df_Ath.head()

Unnamed: 0.1,Unnamed: 0,City,Discipline,Event,Event gender,Medal,NOC,Sport,Year
0,0,Chamonix,Figure skating,individual,M,Silver,AUT,Skating,1924
1,1,Chamonix,Figure skating,individual,W,Gold,AUT,Skating,1924
2,2,Chamonix,Figure skating,pairs,X,Gold,AUT,Skating,1924
3,3,Chamonix,Bobsleigh,four-man,M,Bronze,BEL,Bobsleigh,1924
4,4,Chamonix,Ice Hockey,ice hockey,M,Gold,CAN,Ice Hockey,1924


In [51]:
df_text = pd.read_table('datas/fragmento.txt',)
df_text

Unnamed: 0,"Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas carecían de nombre, y para mencionarlas había que señalarlas con el dedo. Todos los años, por el mes de marzo, una familia de gitanos desarrapados plantaba su carpa cerca de la aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos. Primero llevaron el imán. Un gitano corpulento, de barba montaraz y manos de gorrión, que se presentó con el nombre de Melquíades, hizo una truculenta demostración pública de lo que él mismo llamaba la octava maravilla de los sabios alquimistas de Macedonia. Fue de casa en casa arrastrando dos lingotes metálicos, y todo el mundo se espantó al ver que los calderos, las pailas, las tenazas y los anafes se caían de su sitio, y las maderas crujían por la desesperación de los clavos y los tornillos tratando de desenclavarse, y aun los objetos perdidos desde hacía mucho tiempo aparecían por donde más se les había buscado, y se arrastraban en desbandada turbulenta detrás de los fierros mágicos de Melquíades. «Las cosas tienen vida propia —pregonaba el gitano con áspero acento—, todo es cuestión de despertarles el ánima.» José Arcadio Buendía, cuya desaforada imaginación iba siempre más lejos que el ingenio de la naturaleza, y aun más allá del milagro y la magia, pensó que era posible servirse de aquella invención inútil para desentrañar el oro de la tierra. Melquíades, que era un hombre honrado, le previno: «Para eso no sirve.» Pero José Arcadio Buendía no creía en aquel tiempo en la honradez de los gitanos, así que cambió su mulo y una partida de chivos por los dos lingotes imantados. Úrsula Iguarán, su mujer, que contaba con aquellos animales para ensanchar el desmedrado patrimonio doméstico, no consiguió disuadirlo. «Muy pronto ha de sobrarnos oro para empedrar la casa», replicó su marido. Durante varios meses se empeñó en demostrar el acierto de sus conjeturas. Exploró palmo a palmo la región, inclusive el fondo del río, arrastrando los dos lingotes de hierro y recitando en voz alta el conjuro de Melquíades. Lo único que logró desenterrar fue una armadura del siglo XV con todas sus partes soldadas por un cascote de óxido, cuyo interior tenía la resonancia hueca de un enorme calabazo lleno de piedras. Cuando José Arcadio Buendía y los cuatro hombres de su expedición lograron desarticular la armadura, encontraron dentro un esqueleto calcificado que llevaba colgado en el cuello un relicario de cobre con un rizo de mujer."
0,En marzo volvieron los gitanos. Esta vez lleva...
1,"yuca y el ñame, la ahuyama y la berenjena. De ..."
2,—La tierra es redonda como una naranja.
3,Úrsula perdió la paciencia. «Si has de volvert...
4,"Para esa época, Melquíades había envejecido co..."
5,—Es el olor del demonio —dijo ella.
6,—En absoluto —corrigió Melquíades—. Está compr...
7,"Siempre didáctico, hizo una sabia exposición s..."
8,El rudimentario laboratorio —sin contar una pr...
9,"Cuando volvieron los gitanos, Úrsula había pre..."



## __2. Acceso al Dataframe__


Dentro de las operaciones que se requieren para trabajar un Dataframe se resaltan las siguientes:

* Seleccionar las columnas que se quieren ver
* Seleccionar un subconjunto de los registros utilizando el índice (primeras, últimas, intervalo), 
* Obtener índice y cambiar el índice de la tabla

### Acceso al dataframe

- Acceder a determinadas columnas: `display(dfp[['Pais', 'moneda', 'Pobla']])`
- Acceso al registro de índice 96:  `display(dfp.loc[96])`
- Acceso al registro de índice 96 y la columna 'moneda': `display(dfp.loc[96, 'moneda'])
- Acceso a los registros 96 a 98 y columna 'moneda': `display(dfp.loc[96:98, 'moneda'])`
- Acceso a los registros 96 a 98 y las columnas 'Pais' y 'moneda': `display(dfp.loc[96:98, ['Pais','moneda']])`
- Mas información acerca del uso del [método **loc**.](
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
- Mostrar solo valores únicos de una columna: `dfp.moneda.unique()`, otro ejemplo: `dfp.C.unique()`

### _Ejercicio._

Haga uso de las funciones y métodos anteriores, pruebelos todos en las siguientes lineas de código.

In [52]:
dfp.columns

Index(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda', 'punto mas alto',
       'altura', 'Pob-cap', 'Per-pob', 'Pib PC', 'Nominal', 'Eda-Me', 'E-vida',
       'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype='object')

In [53]:
display(dfp[['Pais']])
print(type(dfp[['Pais']]))

Unnamed: 0,Pais
0,Vaticano
1,Monaco
2,Nauru
3,Tuvalu
4,San marino
...,...
195,Brasil
196,China
197,Estados unidos
198,Canada


<class 'pandas.core.frame.DataFrame'>


In [54]:
display(dfp['Pais'])
print(type(dfp['Pais']))

0            Vaticano
1              Monaco
2               Nauru
3              Tuvalu
4          San marino
            ...      
195            Brasil
196             China
197    Estados unidos
198            Canada
199             Rusia
Name: Pais, Length: 200, dtype: object

<class 'pandas.core.series.Series'>


In [55]:
dfp.head(2)

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.0,Euro,Colina Vaticana,75,1.0,100.0%,,0.0,,,0.0,0.0,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700.0,6.01,53.1,89.4,0.0,1.53,,15170.8


In [56]:
lst = ['Pais', 'moneda', 'Pobla']
dfp[lst]

Unnamed: 0,Pais,moneda,Pobla
0,Vaticano,Euro,0.001
1,Monaco,Euro,0.031
2,Nauru,Dólar,0.010
3,Tuvalu,Dólar,0.011
4,San marino,Euro,0.034
...,...,...,...
195,Brasil,Real,207.353
196,China,Yuan,1379.302
197,Estados unidos,Dólar,326.625
198,Canada,Dólar,35.623


In [57]:
dfp.columns

Index(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda', 'punto mas alto',
       'altura', 'Pob-cap', 'Per-pob', 'Pib PC', 'Nominal', 'Eda-Me', 'E-vida',
       'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype='object')

In [58]:
%%time
lista2 = [x for x in dfp.columns if x not in lst]
dfp[lista2]

CPU times: user 3.9 ms, sys: 0 ns, total: 3.9 ms
Wall time: 3.9 ms


Unnamed: 0,C,capital,Superf,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,0.000,Colina Vaticana,75,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,0.002,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Yaren,0.021,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Funafuti,0.026,"Sin nombre, Niulakita",5,6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San Marino,0.061,Monte Titano,755,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasilia,8515.767,Pico da Neblina,2995,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,Pekin,9596.961,Monte Everest,8848,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Washinton D.C.,9826.000,Monte McKinley (Denali),6190,4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Ottawa,9984.670,Monte Logan,5959,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [59]:
display(dfp.loc[96]) ## Serie de Pandas. Registro 96

C                        e
Pais              Bulgaria
capital              Sofia
Pobla                7.101
Superf             110.879
moneda                 Lev
punto mas alto      Musala
altura                2925
Pob-cap             1226.0
Per-pob              17.3%
Pib PC              20,300
Nominal              52.39
Eda-Me                42.7
E-vida                74.7
Cultiv                29.9
Fertil                1.46
Escol                 15.0
Dens                  64.0
Name: 96, dtype: object

In [60]:
display(dfp.loc[96, 'moneda'])

'Lev'

In [61]:
display(dfp.loc[96:98, 'moneda'])

96        Lev
97      Dólar
98    Lempira
Name: moneda, dtype: object

In [62]:
display(dfp.loc[96:98, ['Pais','moneda']])

Unnamed: 0,Pais,moneda
96,Bulgaria,Lev
97,Liberia,Dólar
98,Honduras,Lempira


In [63]:
## Valores únicos de la columna "moneda" del dataframe.
dfp["moneda"].unique()

array(['Euro', 'Dólar', 'Franco', 'Rupia', "Pa'anga", 'Dinar', 'Dobra',
       'Escudo', 'Nuevo Shequel', 'Libra', 'Dalasi', 'Riyal', 'Vatu',
       'Lilangeni', 'Nuevo Shekel', 'Denar', 'Gourde', 'Lek', 'Dram',
       'Loti', 'Leu', 'Corona', 'Peso', 'Colon', 'Marco', 'Kuna', 'Lari',
       'Leone', 'Balboa', 'Dirham', 'Manat', 'Forintio', 'Won', 'Quetzal',
       'Lev', 'Lempira', 'Nakfa', 'Kwacha', 'Córdoba', 'Somoni', 'Taka',
       'Riel', 'Som', 'Rublo', 'Kip', 'Cedi', 'Chelín', 'Rial', 'Zloty',
       'Ringgit', 'Dong', 'Yen', 'Guaraní', 'Kina', 'Baht', 'Pula',
       'Grivna', 'Afgani', 'Kyat', 'Lira', 'Metical', 'Bolívar', 'Naira',
       'Uquiya', 'Boliviano', 'Biir', 'Rand', 'Kwanza', 'Sol', 'Tugrik',
       'Tengue', 'Real', 'Yuan'], dtype=object)

In [64]:
## Valores únicos de la columna "moneda" del dataframe.
dfp.moneda.unique()

array(['Euro', 'Dólar', 'Franco', 'Rupia', "Pa'anga", 'Dinar', 'Dobra',
       'Escudo', 'Nuevo Shequel', 'Libra', 'Dalasi', 'Riyal', 'Vatu',
       'Lilangeni', 'Nuevo Shekel', 'Denar', 'Gourde', 'Lek', 'Dram',
       'Loti', 'Leu', 'Corona', 'Peso', 'Colon', 'Marco', 'Kuna', 'Lari',
       'Leone', 'Balboa', 'Dirham', 'Manat', 'Forintio', 'Won', 'Quetzal',
       'Lev', 'Lempira', 'Nakfa', 'Kwacha', 'Córdoba', 'Somoni', 'Taka',
       'Riel', 'Som', 'Rublo', 'Kip', 'Cedi', 'Chelín', 'Rial', 'Zloty',
       'Ringgit', 'Dong', 'Yen', 'Guaraní', 'Kina', 'Baht', 'Pula',
       'Grivna', 'Afgani', 'Kyat', 'Lira', 'Metical', 'Bolívar', 'Naira',
       'Uquiya', 'Boliviano', 'Biir', 'Rand', 'Kwanza', 'Sol', 'Tugrik',
       'Tengue', 'Real', 'Yuan'], dtype=object)

In [65]:
## Valores únicos de la columna "C" del dataframe.
dfp.C.unique()

array(['e', 'o', 'm', 'a', 'f'], dtype=object)

In [66]:
for i,columns in enumerate(dfp.columns):
  print(i,columns)

0 C
1 Pais
2 capital
3 Pobla
4 Superf
5 moneda
6 punto mas alto
7 altura
8 Pob-cap
9 Per-pob
10 Pib PC
11 Nominal
12 Eda-Me
13 E-vida
14 Cultiv
15 Fertil
16 Escol
17 Dens


In [67]:
dfp.index.values

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

### Seleccionar columnas

El método para seleccionar columnas de un dataframe más usado es hacer una lista con los nombres de las columnas en el orden que se quiere, así como se muestra en el siguiente ejemplo:


```Python
URL_datos = 'datas/examen.xlsx'                    # URL local del archivo a leer
dfe = pd.read_excel(URL_datos)                     # lectura del archivo 

```

```Python
print(dfe.columns)
sel_columns = ['IDE', 'IDG', 'profesor', 'nota']
dfe1 = dfe[sel_columns]
display(dfe1)
```
Se puede usar directamente sin declarar la lista


```Python
dfe1 = dfe[['IDE', 'IDG', 'profesor', 'jornada', 'nota']]
```






In [68]:
URL_datos = 'datas/examen.xlsx'                    # URL local del archivo a leer
dfe = pd.read_excel(URL_datos)                     # lectura del archivo  

In [69]:
print(dfe.columns)
sel_columns = ['IDE', 'IDG', 'profesor', 'nota']
dfe1 = dfe[sel_columns]
display(dfe1)

Index(['IDE', 'programa', 'IDG', 'corte1', 'corte2', 'prom', 'fallas',
       'fallaP', 'curso', 'creditos', 'IDP', 'nestud', 'periodo', 'año',
       'jornada', 'profesor', 'dedicacion', 'nsala', 'sala', 'horaExamen',
       'inicio', 'final', 'nota', 'p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7',
       'p8', 'p9', 'p10'],
      dtype='object')


Unnamed: 0,IDE,IDG,profesor,nota
0,1500,G5,Agamenón,
1,1620,G5,Agamenón,0.5
2,1675,G5,Agamenón,0.0
3,1702,G5,Agamenón,2.0
4,1706,G5,Agamenón,3.5
...,...,...,...,...
614,1988,G19,Andrómaca,1.5
615,2014,G19,Andrómaca,1.5
616,2070,G19,Andrómaca,2.5
617,2098,G19,Andrómaca,2.5


### Seleccionar registros.

El método [__iloc__](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) resulta útil para seleccionar registros y columnas de un DataFrame, como se muestra en el siguiente ejemplo:



```Python
print(dfe1.iloc[0])   # imprime el primer registro
print(dfe1.iloc[1])   # imprime el segundo registro
print(dfe1.iloc[-1])  # imprime el último registro
```

__iloc__ funciona como una lista de dos dimensiones, con el primer espacio se accede a las filas y con el segundo a las columnas



```Python
s1 = dfe1.iloc[:,-1]
print(type(s1))
s1
```
Pruebe los siguientes ejemplos y verifique el tipo de estructura que devuelve cada operación:

```Python
dfe1.iloc[0:5]            # Primeras cinco filas
dfe1.iloc[:, 0:5]         # Primeras cinco columnas
dfe1.iloc[[0,2,1]]        # Primera, tercera y segunda filas
dfe1.iloc[:, [0,2,1]]     # Primera, tercera y segunda columnas
```

* Usar las funciones head, tail y sample para ver una muestra de los datos del DataFrame

In [70]:
print(dfe1.iloc[0])   # imprime el primer registro
print(dfe1.iloc[1])   # imprime el segundo registro
print(dfe1.iloc[-1])  # imprime el último registro

IDE             1500
IDG               G5
profesor    Agamenón
nota             NaN
Name: 0, dtype: object
IDE             1620
IDG               G5
profesor    Agamenón
nota             0.5
Name: 1, dtype: object
IDE              2108
IDG               G19
profesor    Andrómaca
nota              1.5
Name: 618, dtype: object


In [71]:
dfe1.iloc[0:5]            # Primeras cinco filas
dfe1.iloc[:, 0:5]         # Primeras cinco columnas
dfe1.iloc[[0,2,1]]        # Primera, tercera y segunda filas
dfe1.iloc[:, [0,2,1]]     # Primera, tercera y segunda columnas

Unnamed: 0,IDE,profesor,IDG
0,1500,Agamenón,G5
1,1620,Agamenón,G5
2,1675,Agamenón,G5
3,1702,Agamenón,G5
4,1706,Agamenón,G5
...,...,...,...
614,1988,Andrómaca,G19
615,2014,Andrómaca,G19
616,2070,Andrómaca,G19
617,2098,Andrómaca,G19


In [72]:
## .iloc
dfp.iloc[[2,6,30],[5,11]]

Unnamed: 0,moneda,Nominal
2,Dólar,0.1
6,Dólar,0.19
30,Escudo,1.64


### Obtener el índice y cambiar índice de la Tabla

Con `pandas` usted puede redefinir el índice ordinal original. Para esto debe encontrar una serie dentro de su DataFrame contenga valores únicos. Ejemplo:


```Python
dfp.set_index('Pais', inplace=True)
dfp
```

Es posible generar una lista de valores con los índices del Dataframe

```Python
dfe1 = dfe[['IDE', 'IDG', 'profesor', 'jornada', 'nota']]
ind1 = dfe.index.to_list()
dfe1.set_index('IDE', drop=False, inplace=True)
ind2 = dfe.index.to_list()
```

In [73]:
dfe1.head()

Unnamed: 0,IDE,IDG,profesor,nota
0,1500,G5,Agamenón,
1,1620,G5,Agamenón,0.5
2,1675,G5,Agamenón,0.0
3,1702,G5,Agamenón,2.0
4,1706,G5,Agamenón,3.5


In [74]:
dfe1 = dfe[['IDE', 'IDG', 'profesor']]
dfe1

Unnamed: 0,IDE,IDG,profesor
0,1500,G5,Agamenón
1,1620,G5,Agamenón
2,1675,G5,Agamenón
3,1702,G5,Agamenón
4,1706,G5,Agamenón
...,...,...,...
614,1988,G19,Andrómaca
615,2014,G19,Andrómaca
616,2070,G19,Andrómaca
617,2098,G19,Andrómaca


In [75]:
print(dfe1.index)
print(dfe1.index.values) ## Lista de los índices
print(dfe1.index.to_list()) ## .to_list() buscar forzar el objeto a ser una lista.

RangeIndex(start=0, stop=619, step=1)
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 

In [76]:
ind1 = dfe.index.to_list()
ind1

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99,
 100,
 101,
 102,
 103,
 104,
 105,
 106,
 107,
 108,
 109,
 110,
 111,
 112,
 113,
 114,
 115,
 116,
 117,
 118,
 119,
 120,
 121,
 122,
 123,
 124,
 125,
 126,
 127,
 128,
 129,
 130,
 131,
 132,
 133,
 134,
 135,
 136,
 137,
 138,
 139,
 140,
 141,
 142,
 143,
 144,
 145,
 146,
 147,
 148,
 149,
 150,
 151,
 152,
 153,
 154,
 155,
 156,
 157,
 158,
 159,
 160,
 161,
 162,
 163,
 164,
 165,
 166,
 167,
 168,
 169,
 170,
 171,
 172,
 173,
 174,
 175,
 176,
 177,
 178,
 179,
 180,
 181,
 182,
 183,
 184,


In [77]:
dfe1.set_index('profesor', drop=True, inplace = True)

In [78]:
dfe1

Unnamed: 0_level_0,IDE,IDG
profesor,Unnamed: 1_level_1,Unnamed: 2_level_1
Agamenón,1500,G5
Agamenón,1620,G5
Agamenón,1675,G5
Agamenón,1702,G5
Agamenón,1706,G5
...,...,...
Andrómaca,1988,G19
Andrómaca,2014,G19
Andrómaca,2070,G19
Andrómaca,2098,G19


In [79]:
#dfe1.set_index("profesor",inplace=True)
list(set(dfe1.index.to_list()))
dfe1.loc["Paris"]

Unnamed: 0_level_0,IDE,IDG
profesor,Unnamed: 1_level_1,Unnamed: 2_level_1
Paris,1516,G29
Paris,1517,G29
Paris,1530,G29
Paris,1605,G29
Paris,1642,G29
Paris,1667,G29
Paris,1760,G29
Paris,1860,G29
Paris,1949,G29
Paris,2005,G29


In [80]:
# Celda de código para probar
#dfp.set_index('Pais', drop = True, inplace=True)
dfp

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.000,Euro,Colina Vaticana,75,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,207.353,8515.767,Real,Pico da Neblina,2995,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,326.625,9826.000,Dólar,Monte McKinley (Denali),6190,4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,35.623,9984.670,Dólar,Monte Logan,5959,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [81]:
dfe1 = dfe[['IDE', 'IDG', 'profesor', 'jornada', 'nota']]
ind1 = dfe.index.to_list()
dfe1.set_index('IDE', drop=False, inplace=True)
ind2 = dfe.index.to_list()

In [82]:
# Celda de código para probar
dfe1 = dfe[['IDE', 'IDG', 'profesor', 'jornada', 'nota']]
ind1 = dfe.index.to_list()
ind1[:30] ## Los 30 primeros elementos.

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29]

In [83]:
df_multi = dfe1.set_index(['IDE','profesor'], drop=True, inplace=False)
df_multi.index

MultiIndex([(1500,  'Agamenón'),
            (1620,  'Agamenón'),
            (1675,  'Agamenón'),
            (1702,  'Agamenón'),
            (1706,  'Agamenón'),
            (1716,  'Agamenón'),
            (1763,  'Agamenón'),
            (1768,  'Agamenón'),
            (1777,  'Agamenón'),
            (1797,  'Agamenón'),
            ...
            (1830, 'Andrómaca'),
            (1842, 'Andrómaca'),
            (1843, 'Andrómaca'),
            (1955, 'Andrómaca'),
            (1967, 'Andrómaca'),
            (1988, 'Andrómaca'),
            (2014, 'Andrómaca'),
            (2070, 'Andrómaca'),
            (2098, 'Andrómaca'),
            (2108, 'Andrómaca')],
           names=['IDE', 'profesor'], length=619)

### Generar una columna calculada

Crear un DataFrame a partir de un diccionario

```Python
dic = {'nombre':['jorge', 'Darwin', 'Miguel'], 'peso':[68.5, 78.3, 65.5], 'altura':[1.67, 1.72, 1.52]}
dfm = pd.DataFrame(dic)
dfm
```
Usar peso y altura para calcular imc y agregar como nueva columna al Dataframe


```Python
dfm['imc'] = dfm.peso/dfm.altura**2
```


In [84]:
# Celda de código para probar
dic = {'nombre':['jorge', 'Darwin', 'Miguel'], 'peso':[68.5, 78.3, 65.5], 'altura':[1.67, 1.72, 1.52]}
dfm = pd.DataFrame(dic)
dfm

Unnamed: 0,nombre,peso,altura
0,jorge,68.5,1.67
1,Darwin,78.3,1.72
2,Miguel,65.5,1.52


In [85]:
dfm["nueva"] = ["hola","a","todos"]
dfm

Unnamed: 0,nombre,peso,altura,nueva
0,jorge,68.5,1.67,hola
1,Darwin,78.3,1.72,a
2,Miguel,65.5,1.52,todos


In [86]:
dfm['imc'] = dfm.peso/dfm.altura**2
dfm

Unnamed: 0,nombre,peso,altura,nueva,imc
0,jorge,68.5,1.67,hola,24.561655
1,Darwin,78.3,1.72,a,26.467009
2,Miguel,65.5,1.52,todos,28.350069


#### _Ejercicio._

1. Agregue una columna con los valores de 'edad'
2. Cambie un valor específico del DataFrame


In [87]:
dfm["edad"] = [24,45,23]
dfm

Unnamed: 0,nombre,peso,altura,nueva,imc,edad
0,jorge,68.5,1.67,hola,24.561655,24
1,Darwin,78.3,1.72,a,26.467009,45
2,Miguel,65.5,1.52,todos,28.350069,23


In [88]:
dfm.iloc[1,1]= "cambio"
dfm

Unnamed: 0,nombre,peso,altura,nueva,imc,edad
0,jorge,68.5,1.67,hola,24.561655,24
1,Darwin,cambio,1.72,a,26.467009,45
2,Miguel,65.5,1.52,todos,28.350069,23


In [89]:
dfm.loc[2,"edad"] = [["otro, cambio"]]
dfm

Unnamed: 0,nombre,peso,altura,nueva,imc,edad
0,jorge,68.5,1.67,hola,24.561655,24
1,Darwin,cambio,1.72,a,26.467009,45
2,Miguel,65.5,1.52,todos,28.350069,"[otro, cambio]"


### Copiar y borrar información del dataframe
- En general las funciones de *pandas* trabajan haciendo referencias de los datos. Cuando se extrae un subconjunto de los datos o se cambia el orden a las columnas, esto se hace como una nueva vista de los datos originales. Sin embargo, en algunos casos es necesario hacer una copia para no modificar la fuente original de datos. Esto se hace mediante la función __copy()__

    `df1 = dfp.copy()`

- En otros casos las funciones aplican las operaciones en datos en memoría temporal, es decir no se aplican sobre la variable que hace la operación. Por lo que se hace necesario asignar el resultado a otra variable o hacer uso de la opción __inplace=True__. En el siguiente ejemplo se muestra como realizar el borrado de filas o columnas sobre la variable:

    ```Python
    df1.drop(columns=['Pobla', 'Superf', 'altura'], inplace=True)
    df1.drop([0,2,4,6], inplace=True)
    display(df1)
    ```

In [90]:
dfp

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.000,Euro,Colina Vaticana,75,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,207.353,8515.767,Real,Pico da Neblina,2995,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,326.625,9826.000,Dólar,Monte McKinley (Denali),6190,4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,35.623,9984.670,Dólar,Monte Logan,5959,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [91]:
df1 = dfp.copy()
df1

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.000,Euro,Colina Vaticana,75,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Tuvalu,Funafuti,0.011,0.026,Dólar,"Sin nombre, Niulakita",5,6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,0.034,0.061,Euro,Monte Titano,755,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,207.353,8515.767,Real,Pico da Neblina,2995,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,326.625,9826.000,Dólar,Monte McKinley (Denali),6190,4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,35.623,9984.670,Dólar,Monte Logan,5959,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [92]:
df1.columns

Index(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda', 'punto mas alto',
       'altura', 'Pob-cap', 'Per-pob', 'Pib PC', 'Nominal', 'Eda-Me', 'E-vida',
       'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype='object')

In [93]:
df1.drop(columns=['Pobla', 'Superf', 'altura'], inplace=True)
df1

Unnamed: 0,C,Pais,capital,moneda,punto mas alto,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,Euro,Colina Vaticana,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
1,e,Monaco,Monaco,Euro,Chemin des Révoires,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,Dólar,Command Ridge,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
3,o,Tuvalu,Funafuti,Dólar,"Sin nombre, Niulakita",6.000,54.3%,3500,0.04,25.7,66.9,0.0,2.95,,425.1
4,e,San marino,San Marino,Euro,Monte Titano,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,Real,Pico da Neblina,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,Yuan,Monte Everest,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,Dólar,Monte McKinley (Denali),4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,Dólar,Monte Logan,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


In [94]:
df1.drop([1,3,5,7], inplace=True)
df1

Unnamed: 0,C,Pais,capital,moneda,punto mas alto,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,Euro,Colina Vaticana,1.000,100.0%,,0.00,,,0.0,0.00,,2272.7
2,o,Nauru,Yaren,Dólar,Command Ridge,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
4,e,San marino,San Marino,Euro,Monte Titano,4.000,11.9%,59500,1.59,44.4,83.3,16.7,1.50,15.0,549.8
6,o,Islas Marshall,Majuro,Dólar,"Sin nombre, atolón de Likiep",31.000,41.6%,3300,0.19,22.9,73.4,7.8,3.03,,411.6
8,a,Maldivas,Male,Rupia,"Sin nombre, atolón de Seenu",156.000,39.8%,15500,4.24,28.2,75.8,10.0,1.73,,1315.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,m,Brasil,Brasilia,Real,Pico da Neblina,4155.000,2.0%,15200,1799.00,32.0,74.0,8.6,1.75,15.0,24.3
196,a,China,Pekin,Yuan,Monte Everest,20384.000,1.5%,15400,11230.00,37.4,75.7,11.3,1.60,14.0,143.7
197,m,Estados unidos,Washinton D.C.,Dólar,Monte McKinley (Denali),4955.000,1.5%,57400,18620.00,38.1,80.0,16.8,1.87,17.0,33.2
198,m,Canada,Ottawa,Dólar,Monte Logan,1326.000,3.7%,46400,1530.00,42.2,81.9,4.7,1.60,,3.6


#### _Ejercicio._

- Usar la función __zip__ para recorrer varias columnas dentro de un ciclo. Seleccione parejas de columnas y muestre la información conjunta.

In [95]:
# celda de código para probar
ti = dfp['Eda-Me'].values
tf = dfp['E-vida'].values
for i,f in zip(ti,tf):
    print('Espectativa de vida: {} para una media de {} el indicador es {:.3f} %'.format(i,f,(100*i/f)))

Espectativa de vida: nan para una media de nan el indicador es nan %
Espectativa de vida: 53.1 para una media de 89.4 el indicador es 59.396 %
Espectativa de vida: 26.4 para una media de 67.4 el indicador es 39.169 %
Espectativa de vida: 25.7 para una media de 66.9 el indicador es 38.416 %
Espectativa de vida: 44.4 para una media de 83.3 el indicador es 53.301 %
Espectativa de vida: 43.2 para una media de 81.9 el indicador es 52.747 %
Espectativa de vida: 22.9 para una media de 73.4 el indicador es 31.199 %
Espectativa de vida: 35.0 para una media de 75.9 el indicador es 46.113 %
Espectativa de vida: 28.2 para una media de 75.8 el indicador es 37.203 %
Espectativa de vida: 41.8 para una media de 80.5 el indicador es 51.925 %
Espectativa de vida: 31.5 para una media de 74.5 el indicador es 42.282 %
Espectativa de vida: 36.6 para una media de 75.5 el indicador es 48.477 %
Espectativa de vida: 38.6 para una media de 75.5 el indicador es 51.126 %
Espectativa de vida: 31.9 para una media de

## __3. Ordenamiento de DataFrames.__


Una vez cargado un conjunto de datos en un DataFrame, `pandas` le permite realizar ordenamientos por una columna, múltiples columnas y por índice.

Este ordenamiento puede darse de forma ascendente o descendente.

### Ordenamiento por una o varias columnas
Para realizar ordenamiento por columna(s) usted puede utilizar la función *sort_values*. Esta función recibe argumentos de:

*   Nombre de la columna o una lista con el nombre de las columnas.
*   ascending = verdadero o falso para cada columna
*   inplace = verdadero para hacer el ordenamiento sobre el dataframe original.


```Python
# ordenamiento ascendente por una columna
dfp.sort_values(['Pais'], ascending=[True], inplace=True)
dfp
# ordenamiento descendente por una columna
dfp.sort_values(['capital'], ascending=[False], inplace=True)
dfp
# ordenamiento dos columnas: ascendente col 1 y descendente col 2
dfp.sort_values(['C','Pobla' ], ascending=[True, False], inplace=True)
dfp
# ordenamiento dos columnas: ascendente col 1 y acendente col 2
dfp.sort_values(['C','Pobla' ], ascending=[True, True], inplace=True)
dfp
```



Ahora ustede puede usar la función sort_index para hacer el ordenamiento ascendente o descendente a partir del índice que se ha definido.


In [96]:
dfp.head(3)

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
0,e,Vaticano,Vaticano,0.001,0.0,Euro,Colina Vaticana,75,1.0,100.0%,,0.0,,,0.0,0.0,,2272.7
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700.0,6.01,53.1,89.4,0.0,1.53,,15170.8
2,o,Nauru,Yaren,0.01,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600.0,0.1,26.4,67.4,0.0,2.8,9.0,459.1


In [97]:
#Celda de código para probar
# ordenamiento ascendente por una columna
dfp.sort_values(['Pais'], ascending=[True], inplace=True)
dfp

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
160,a,Afganistan,Kabul,34.124,652.230,Afgani,Noshaq,7492,4635.0,13.6%,1900,19.45,18.8,51.7,11.9,5.12,11.0,52.3
58,e,Albania,Tirana,3.048,28.748,Lek,Korab,2764,454.0,14.9%,11800,11.87,32.9,78.5,22.7,1.51,16.0,106.0
138,e,Alemania,Berlin,80.594,357.022,Euro,Zugspitze,2962,3563.0,4.4%,48100,3479.00,47.1,80.8,34.1,1.45,17.0,225.7
16,e,Andorra,Andorra,0.086,0.468,Euro,Coma Pedrosa,2942,23.0,26.8%,49900,2.71,44.3,82.9,5.5,1.40,,183.1
178,f,Angola,Luanda,29.310,1246.700,Kwanza,Morro de Moco,2620,5506.0,18.8%,6800,95.34,15.9,60.2,3.8,6.16,10.0,23.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,f,West sahara,Aaiun,0.587,266.000,Dirham,Guelta Zemmur,463,262.0,44.6%,3257,0.91,,,,,,2.2
151,a,Yemen,Sana,28.037,527.968,Rial,Jabal an Nabi Shu'ayb,3666,2962.0,10.6%,2400,27.32,19.5,65.9,2.2,3.63,9.0,53.1
52,f,Yibuti,Yibuti,0.865,23.200,Franco,Moussa Ali,2028,529.0,61.1%,3400,1.89,23.9,63.6,0.1,2.31,6.0,37.3
162,f,Zambia,Lusaka,15.972,752.618,Kwacha,"Sin nombre, en Mafinga",2329,2179.0,13.6%,3900,21.01,16.8,52.7,4.8,5.63,,21.2


In [98]:
# ordenamiento descendente por una columna
dfp.sort_values(['capital'], ascending=[False], inplace=True)
dfp

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
75,e,Croacia,Zageb,4.292,56.594,Kuna,Dinara,1831,687.000,16.0%,22800,50.73,43.0,76.1,16.0,1.40,15.0,75.8
159,f,Sudan del sur,Yuba,13.026,644.329,Libra,Kinyeti,3187,321.000,2.5%,1700,3.06,17.3,,,5.07,,20.2
52,f,Yibuti,Yibuti,0.865,23.200,Franco,Moussa Ali,2028,529.000,61.1%,3400,1.89,23.9,63.6,0.1,2.31,6.0,37.3
147,f,Camerun,Yaunde,24.994,475.440,Franco,Fako,4040,3066.000,12.3%,3200,29.33,18.5,59.0,13.1,4.64,10.0,52.6
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
174,f,Etiopia,Adis abeba,105.350,1104.300,Biir,Ras Dejen,4550,3238.000,3.1%,1900,72.52,17.9,62.6,15.2,4.99,8.0,95.4
119,f,Ghana,Accra,27.500,238.533,Cedi,Monte Afadjato,880,2277.000,8.3%,4400,42.78,21.1,67.0,20.7,4.00,11.0,115.3
169,f,Nigeria,Abuya,190.623,923.768,Naira,Chappal Waddi,2419,2440.000,1.3%,5900,405.40,18.4,53.8,37.3,5.07,,206.4
86,a,Emiratos arabes un,Abu Dabi,6.072,83.600,Dirham,"Sin nombre, oeste Jabal Bil Ays",1910,2415.000,39.8%,67900,348.70,30.3,77.7,0.5,2.32,,72.6


In [99]:
# ordenamiento dos columnas: ascendente col 1 y descendente col 2
dfp.sort_values(['capital','Pobla' ], ascending=[True, False], inplace=True)
dfp

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
123,f,West sahara,Aaiun,0.587,266.000,Dirham,Guelta Zemmur,463,262.000,44.6%,3257,0.91,,,,,,2.2
86,a,Emiratos arabes un,Abu Dabi,6.072,83.600,Dirham,"Sin nombre, oeste Jabal Bil Ays",1910,2415.000,39.8%,67900,348.70,30.3,77.7,0.5,2.32,,72.6
169,f,Nigeria,Abuya,190.623,923.768,Naira,Chappal Waddi,2419,2440.000,1.3%,5900,405.40,18.4,53.8,37.3,5.07,,206.4
119,f,Ghana,Accra,27.500,238.533,Cedi,Monte Afadjato,880,2277.000,8.3%,4400,42.78,21.1,67.0,20.7,4.00,11.0,115.3
174,f,Etiopia,Adis abeba,105.350,1104.300,Biir,Ras Dejen,4550,3238.000,3.1%,1900,72.52,17.9,62.6,15.2,4.99,8.0,95.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
147,f,Camerun,Yaunde,24.994,475.440,Franco,Fako,4040,3066.000,12.3%,3200,29.33,18.5,59.0,13.1,4.64,10.0,52.6
52,f,Yibuti,Yibuti,0.865,23.200,Franco,Moussa Ali,2028,529.000,61.1%,3400,1.89,23.9,63.6,0.1,2.31,6.0,37.3
159,f,Sudan del sur,Yuba,13.026,644.329,Libra,Kinyeti,3187,321.000,2.5%,1700,3.06,17.3,,,5.07,,20.2


Ahora quisieramos generar un índice ordenando por profesor de manera descendente y guardar este índice en el dataframe. 

```Python
dfe1.sort_values(by=['profesor'], ascending=False, inplace=True)
dfe1.set_index('IDE',  inplace=True)
dfe1.reset_index(inplace=True)
dfe1.sort_values(by=['IDE'], ascending=False, inplace=True)
dfe1.reset_index(inplace=True)
dfe1
```

In [100]:
dfe1.reset_index(inplace=True)

In [101]:
dfe1

Unnamed: 0,index,IDE,IDG,profesor,jornada,nota
0,0,1500,G5,Agamenón,día,
1,1,1620,G5,Agamenón,día,0.5
2,2,1675,G5,Agamenón,día,0.0
3,3,1702,G5,Agamenón,día,2.0
4,4,1706,G5,Agamenón,día,3.5
...,...,...,...,...,...,...
614,614,1988,G19,Andrómaca,noche,1.5
615,615,2014,G19,Andrómaca,noche,1.5
616,616,2070,G19,Andrómaca,noche,2.5
617,617,2098,G19,Andrómaca,noche,2.5


In [102]:
# Celda de código para probar
dfe1.sort_values(by=['profesor'], ascending=False, inplace=True)
dfe1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfe1.sort_values(by=['profesor'], ascending=False, inplace=True)


Unnamed: 0,index,IDE,IDG,profesor,jornada,nota
586,586,2042,G18,Pándarp,noche,3.0
581,581,1670,G18,Pándarp,noche,2.5
588,588,2104,G18,Pándarp,noche,2.0
587,587,2058,G18,Pándarp,noche,2.5
585,585,2012,G18,Pándarp,noche,1.5
...,...,...,...,...,...,...
496,496,1648,G3,Agamenón,día,1.0
495,495,1641,G3,Agamenón,día,4.5
494,494,1563,G3,Agamenón,día,2.5
493,493,1562,G3,Agamenón,día,1.0


In [103]:
dfe1.sort_values(by=['IDE'], ascending=False, inplace=True)
dfe1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfe1.sort_values(by=['IDE'], ascending=False, inplace=True)


Unnamed: 0,index,IDE,IDG,profesor,jornada,nota
399,399,2116,G14,Artemisa,día,
377,377,2115,G1,Apolo,día,4.5
138,138,2114,G26,Príamo,noche,1.5
575,575,2113,G22,Poseidón,noche,
435,435,2112,G30,Hermes,noche,1.5
...,...,...,...,...,...,...
82,82,1504,G6,Atenea,día,1.0
60,60,1503,G4,Hefesto,día,1.0
43,43,1502,G16,Menelao,noche,2.0
21,21,1501,G12,Dolón,día,


## __4. Filtrado en DataFrames y algunos métodos de resumen.__

En pandas usted puede aplicar diferentes tipos de filtro sobre un DataFrame. Los filtros pueden ser construidos a partir de la evaluación de expresiones lógicas sobre las columnas o funciones propias de pandas.

A continuación se muestran unos ejemplos de filtros construidos con pandas.


Valores máximos o mínimos sobre todo el DataFrame
```Python
dfp.max() # obtiene los valores máximos de cada serie sobre todo el dataframe
dfp.min() # obtiene los valores máximos de cada serie sobre todo el dataframe
```
Valores máximos y mínimos sobre una columna

```Python
dfp['altura'].max() # obtiene el valor máximo de la columna seleccionada
dfp['altura'].min() # obtiene el valor máximo de la columna seleccionada
```
Valores máximos y mínimos de más de una columna

```Python
dfp[['altura', 'Pob-cap']].max() # obtiene el valor máximo de la columnas seleccionadas
dfp[['altura', 'Pob-cap']].min() # obtiene el valor máximo de la columna seleccionada
```

In [104]:
dfp.head(2)

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
123,f,West sahara,Aaiun,0.587,266.0,Dirham,Guelta Zemmur,463,262.0,44.6%,3257,0.91,,,,,,2.2
86,a,Emiratos arabes un,Abu Dabi,6.072,83.6,Dirham,"Sin nombre, oeste Jabal Bil Ays",1910,2415.0,39.8%,67900,348.7,30.3,77.7,0.5,2.32,,72.6


In [105]:
dfp["moneda"].unique()

array(['Dirham', 'Naira', 'Cedi', 'Biir', 'Dinar', 'Euro', 'Lira',
       'Franco', 'Dólar', 'Manat', 'Nakfa', 'Tengue', 'Guaraní', 'Baht',
       'Dalasi', 'Libra', 'Som', 'Peso', 'Real', 'Leu', 'Forintio',
       'Bolívar', 'Corona', 'Taka', 'Chelín', 'Riyal', 'Somoni', 'Dram',
       'Leone', 'Pula', 'Quetzal', 'Dong', 'Rupia', 'Nuevo Shekel',
       'Nuevo Shequel', 'Afgani', 'Grivna', 'Ringgit', 'Kwacha', 'Sol',
       'Kwanza', 'Córdoba', 'Metical', 'Rial', 'Loti', 'Lilangeni',
       'Rublo', 'Kyat', 'Riel', 'Uquiya', "Pa'anga", 'Balboa', 'Yuan',
       'Won', 'Vatu', 'Escudo', 'Rand', 'Kina', 'Gourde', 'Colon',
       'Dobra', 'Marco', 'Denar', 'Lev', 'Boliviano', 'Lempira', 'Lari',
       'Lek', 'Yen', 'Tugrik', 'Zloty', 'Kip', 'Kuna'], dtype=object)

In [106]:
# máscara, una Serie de Pandas boolena.
mask = dfp["moneda"] == "Euro"
dfp[mask]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
68,e,Paises bajos,Amsterdan,17.084,41.543,Euro,Monte Scenery en la isla de Saba,887,1091.0,6.4%,51000.0,777.5,42.6,81.4,29.8,1.78,18.0,411.2
16,e,Andorra,Andorra,0.086,0.468,Euro,Coma Pedrosa,2942,23.0,26.8%,49900.0,2.71,44.3,82.9,5.5,1.4,,183.1
104,e,Grecia,Atenas,10.77,132.0,Euro,Monte Mitikas (Olimpo),2919,3052.0,28.3%,26700.0,194.6,44.5,80.7,19.7,1.43,17.0,81.6
138,e,Alemania,Berlin,80.594,357.022,Euro,Zugspitze,2962,3563.0,4.4%,48100.0,3479.0,47.1,80.8,34.1,1.45,17.0,225.7
72,e,Eslovaquia,Bratislava,5.445,49.035,Euro,Gerlachovský štít,2655,401.0,7.4%,31300.0,89.59,40.5,77.3,28.9,1.41,15.0,111.0
62,e,Belgica,Bruselas,11.491,30.528,Euro,Signal de Botrange,694,2045.0,17.8%,45000.0,466.6,41.4,81.1,27.2,1.78,20.0,376.4
81,e,Irlanda,Dublin,5.011,70.273,Euro,Carrauntoohil,1038,1169.0,23.3%,69200.0,304.4,36.8,80.9,15.4,1.97,19.0,71.3
136,e,Finlandia,Helsinki,5.518,338.145,Euro,Halti,1324,1180.0,21.4%,42400.0,238.6,42.5,81.0,7.4,1.75,19.0,16.3
9,e,Malta,La Valetta,0.416,0.316,Euro,Ta'Dmejrek,253,197.0,47.4%,39900.0,11.0,41.8,80.5,28.4,1.55,15.0,1316.5
90,e,Portugal,Lisboa,10.839,92.09,Euro,"Ponta do Pico, isla Azores",2351,2884.0,26.6%,28900.0,204.6,42.2,79.4,11.9,1.53,17.0,117.7


In [107]:
# Celda de código para probar
print(dfp.max()) # obtiene los valores máximos de cada serie sobre todo el dataframe
print(dfp.min()) # obtiene los valores máximos de cada serie sobre todo el dataframe

C                         o
Pais                Zimbaue
capital               Zageb
Pobla              1379.302
Superf              17098.0
moneda                Zloty
punto mas alto    Zugspitze
altura                 8848
Pob-cap             38001.0
Per-pob               99.8%
Nominal             18620.0
Eda-Me                 53.1
E-vida                 89.4
Cultiv                 59.0
Fertil                 6.49
Escol                  20.0
Dens                15170.8
dtype: object
C                          a
Pais              Afganistan
capital                Aaiun
Pobla                  0.001
Superf                   0.0
moneda                Afgani
punto mas alto     Aconcagua
altura                     2
Pob-cap                0.299
Per-pob                 0.6%
Nominal                  0.0
Eda-Me                  15.4
E-vida                  50.6
Cultiv                   0.0
Fertil                   0.0
Escol                    5.0
Dens                     2.0
dtype: object


  print(dfp.max()) # obtiene los valores máximos de cada serie sobre todo el dataframe
  print(dfp.min()) # obtiene los valores máximos de cada serie sobre todo el dataframe


In [108]:
dfp["E-vida"].max()

89.4

In [109]:
dfp[dfp["E-vida"]== dfp["E-vida"].max()]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
1,e,Monaco,Monaco,0.031,0.002,Euro,Chemin des Révoires,161,30.581,99.8%,115700,6.01,53.1,89.4,0.0,1.53,,15170.8


In [110]:
dfp[dfp["E-vida"]== dfp["E-vida"].min()]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
180,f,Chad,Yamena,12.075,1284.0,Franco,Emi Koussi,3445,1260.0,10.4%,2400,10.1,17.8,50.6,3.9,4.34,7.0,9.4


In [111]:
print(dfp['altura'].max()) # obtiene el valor máximo de la columna seleccionada
print(dfp['altura'].min()) # obtiene el valor máximo de la columna seleccionada

8848
2


In [112]:
print(dfp[['altura', 'Pob-cap']].max()) # obtiene el valor máximo de la columnas seleccionadas
print(dfp[['altura', 'Pob-cap']].min()) # obtiene el valor máximo de la columna seleccionada

altura      8848.0
Pob-cap    38001.0
dtype: float64
altura     2.000
Pob-cap    0.299
dtype: float64


In [113]:
mask1 = dfp['moneda'] == "Euro"
mask1

123    False
86     False
169    False
119    False
174    False
       ...  
2      False
147    False
52     False
159    False
75     False
Name: moneda, Length: 200, dtype: bool

In [114]:
mask2 = dfp['Pobla'] <= 100
mask2

123     True
86      True
169    False
119     True
174    False
       ...  
2       True
147     True
52      True
159     True
75      True
Name: Pobla, Length: 200, dtype: bool

In [115]:
((mask1)&(mask2)).sum()

25

In [116]:
dfp[(mask1)&(mask2)]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
68,e,Paises bajos,Amsterdan,17.084,41.543,Euro,Monte Scenery en la isla de Saba,887,1091.0,6.4%,51000.0,777.5,42.6,81.4,29.8,1.78,18.0,411.2
16,e,Andorra,Andorra,0.086,0.468,Euro,Coma Pedrosa,2942,23.0,26.8%,49900.0,2.71,44.3,82.9,5.5,1.4,,183.1
104,e,Grecia,Atenas,10.77,132.0,Euro,Monte Mitikas (Olimpo),2919,3052.0,28.3%,26700.0,194.6,44.5,80.7,19.7,1.43,17.0,81.6
138,e,Alemania,Berlin,80.594,357.022,Euro,Zugspitze,2962,3563.0,4.4%,48100.0,3479.0,47.1,80.8,34.1,1.45,17.0,225.7
72,e,Eslovaquia,Bratislava,5.445,49.035,Euro,Gerlachovský štít,2655,401.0,7.4%,31300.0,89.59,40.5,77.3,28.9,1.41,15.0,111.0
62,e,Belgica,Bruselas,11.491,30.528,Euro,Signal de Botrange,694,2045.0,17.8%,45000.0,466.6,41.4,81.1,27.2,1.78,20.0,376.4
81,e,Irlanda,Dublin,5.011,70.273,Euro,Carrauntoohil,1038,1169.0,23.3%,69200.0,304.4,36.8,80.9,15.4,1.97,19.0,71.3
136,e,Finlandia,Helsinki,5.518,338.145,Euro,Halti,1324,1180.0,21.4%,42400.0,238.6,42.5,81.0,7.4,1.75,19.0,16.3
9,e,Malta,La Valetta,0.416,0.316,Euro,Ta'Dmejrek,253,197.0,47.4%,39900.0,11.0,41.8,80.5,28.4,1.55,15.0,1316.5
90,e,Portugal,Lisboa,10.839,92.09,Euro,"Ponta do Pico, isla Azores",2351,2884.0,26.6%,28900.0,204.6,42.2,79.4,11.9,1.53,17.0,117.7


### Filtrado por múltiples columnas con diferentes criterios

```Python
dfp[(dfp['Pais'].str.startswith('V')) & (dfp['altura'] > 161)]
# Filtro donde los paises pertenecen al Contiente sea Asia, la población sea superior a 100 y el Pib PC sea superior a 3.9

dfp[(dfp['C'] == 'a') & (dfp['Pobla'] > 100) & (dfp['Pib PC'].str.replace(',','.').astype(float)> 3.9)]

# filtrado de los paises donde la edad media sea superior a 25 y menor a 60
dfp[(dfp['Eda-Me'] > 25) & (dfp['Eda-Me'] < 60)]

# filtrado de los paises que tienen por moneda peso y la superficie es superior a 2000
dfp[(dfp['moneda'] == 'Peso') & (dfp['Superf'] > 2000)]

#valores únicos por columna
dfp['moneda'].unique()
```
Notese que las expresiones en los filtros se debe usar paréntesis ()



In [117]:
dfp[(dfp['Pais'].str.startswith('V'))]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
168,m,Venezuela,Caracas,31.304,912.05,Bolívar,Pico Bolívar,4978,2916.0,9.3%,13800.0,236.4,28.3,76.0,3.1,2.32,14.0,34.3
135,a,Vietnam,Hanoi,96.16,331.21,Dong,Fan Si Pan,3143,3629.0,3.8%,6400.0,201.3,30.5,73.7,20.6,1.81,,290.3
41,o,Vanuatu,Port Vila,0.283,12.189,Vatu,Monte Tabwemasana,1877,53.0,18.7%,2600.0,0.81,22.0,73.7,1.6,3.07,,23.2
0,e,Vaticano,Vaticano,0.001,0.0,Euro,Colina Vaticana,75,1.0,100.0%,,0.0,,,0.0,0.0,,2272.7


In [118]:
# Filtro de los paises que inicain su nombre con "V" y altura mayor a 161
dfp[(dfp['Pais'].str.startswith('V')) & (dfp['altura'] > 161)]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
168,m,Venezuela,Caracas,31.304,912.05,Bolívar,Pico Bolívar,4978,2916.0,9.3%,13800,236.4,28.3,76.0,3.1,2.32,14.0,34.3
135,a,Vietnam,Hanoi,96.16,331.21,Dong,Fan Si Pan,3143,3629.0,3.8%,6400,201.3,30.5,73.7,20.6,1.81,,290.3
41,o,Vanuatu,Port Vila,0.283,12.189,Vatu,Monte Tabwemasana,1877,53.0,18.7%,2600,0.81,22.0,73.7,1.6,3.07,,23.2


In [119]:
dfp['Pib PC'].str.replace(",",".").astype(float)

123     3.257
86     67.900
169     5.900
119     4.400
174     1.900
        ...  
2      11.600
147     3.200
52      3.400
159     1.700
75     22.800
Name: Pib PC, Length: 200, dtype: float64

In [120]:
# Filtro donde los paises pertenecen al Contiente sea Asia, la población sea superior a 100 y el Pib PC sea superior a 3.9
dfp[(dfp['C'] == 'a') & (dfp['Pobla'] > 100) & (dfp['Pib PC'].str.replace(',','.').astype(float)> 3.9)]

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
165,a,Pakistan,Islamabad,204.924,796.0,Rupia,K2,8611,1365.0,0.7%,5100,278.9,23.8,68.1,27.6,2.62,8.0,257.4
128,a,Filipinas,Manila,104.25,300.0,Peso,Apo,2954,12946.0,12.4%,7700,304.9,23.5,69.4,18.2,3.02,13.0,347.5
193,a,India,Nueva Delhi,1282.0,3287.0,Rupia,Kanchenjunga,8586,25703.0,2.0%,6600,2264.0,27.9,68.8,52.8,2.43,12.0,390.0
196,a,China,Pekin,1379.302,9596.961,Yuan,Monte Everest,8848,20384.0,1.5%,15400,11230.0,37.4,75.7,11.3,1.6,14.0,143.7
139,a,Japon,Tokio,126.451,378.0,Yen,Monte Fuji,3776,38001.0,30.1%,41300,4937.0,47.3,85.3,11.7,1.41,15.0,334.5
186,a,Indonesia,Yakarta,260.58,1904.0,Rupia,Puncak Jaya (Monte Carstensz),4884,10323.0,4.0%,11700,932.4,30.2,73.0,13.0,2.11,13.0,136.9


### Filtrado con muestreo aleatorio sobre el DataFrame

```Python
# obtiene 25 elementos de forma aleatoria sobre el dataframe
dfp.sample(25)

# obtiene el 60% de los elementos de forma aleatoria sobre el dataframe sin repetir ningun registro
dfp.sample(frac=0.6, replace=False)
```
Filtro por índices con valores aleatorios de forma estratificada

In [121]:
# Celda de código para probar
# obtiene 25 elementos de forma aleatoria sobre el dataframe
dfp.sample(25)

# obtiene el 60% de los elementos de forma aleatoria sobre el dataframe sin repetir ningun registro
dfp.sample(frac=0.6, replace=False)

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
115,e,Bielorusia,Misk,9.549,207.600,Rublo,Dzyarzhynskaya,346,1915.0,20.1%,18000,47.39,40.0,73.0,27.2,1.48,16.0,46.0
177,f,Mali,Bamako,17.885,1240.000,Franco,Hombori Tondo,1155,2515.0,14.1%,2300,14.04,15.8,60.3,5.6,6.01,8.0,14.4
132,f,Costa de marfil,Yamusukro,24.184,322.463,Franco,Monte Nimba,1752,259.0,1.1%,3600,35.67,20.9,59.0,9.1,3.38,9.0,75.0
165,a,Pakistan,Islamabad,204.924,796.000,Rupia,K2,8611,1365.0,0.7%,5100,278.90,23.8,68.1,27.6,2.62,8.0,257.4
44,a,Timor oriental,Dili,1.291,14.874,Dólar,Foho Tatamailau,2963,228.0,17.7%,4200,2.70,18.9,68.4,10.1,4.79,13.0,86.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
185,f,Sudan,Jartum,37.345,1861.484,Libra,Deriba Caldera,3042,5129.0,13.7%,4400,91.24,19.9,64.4,15.7,3.57,7.0,20.1
22,a,Barein,Manama,1.410,0.760,Dinar,Jabal ad Dukhan,122,411.0,29.1%,50700,31.86,32.3,79.0,2.1,1.75,,1855.3
84,e,Serbia,Belgrado,7.111,77.474,Dinar,Midžor,2169,1182.0,16.6%,14500,37.75,42.6,75.7,37.7,1.44,14.0,91.8
54,f,Ruanda,Kigali,11.901,26.338,Franco,Monte Karisimbi,4507,1257.0,10.6%,2000,8.41,19.0,64.3,47.0,3.87,11.0,451.9


### Filtrar por valores de una columna

- Filtrar por una lista de profesores
        
```Python
dfe1 = dfe[sel_columns]
lstp = ['Apolo', 'Eneas']
df1 = dfe1[dfe1.profesor.isin(lstp)]
#df1 = dfe1[~dfe1.profesor.isin(lstp)]
df1
```

* Reemplazo de valores numéricos por categorías

```Python

dicn = {3.0:'Tres', 2.0:'dos', 1.5:'uno y medio', 1.0:'uno', 
        0.5:'medio', 0:'cero', 3.5:'tres y medio', 4:'cuatro', 
        2.5:'dos y medio', 5:'Cinco', 4.5:'cuatro y medio'}
dfe1.nota = dfe1.nota.map(dicn)

```

* Filtrado de datos por lista de índices


```Python
lst = dfe1.profesor[dfe1.profesor=='Eneas'].index[:].to_list()
print(lst)
dfe1[dfe1.IDE.isin(lst)]
```

In [122]:
# Celda de código para probar
dfe1 = dfe[sel_columns]
lstp = ['Apolo', 'Eneas']
df1 = dfe1[dfe1.profesor.isin(lstp)]
# df1 = dfe1[~dfe1.profesor.isin(lstp)]
df1

Unnamed: 0,IDE,IDG,profesor,nota
355,1529,G1,Apolo,3.0
356,1546,G1,Apolo,1.5
357,1611,G1,Apolo,4.0
358,1646,G1,Apolo,4.0
359,1668,G1,Apolo,5.0
360,1701,G1,Apolo,1.5
361,1703,G1,Apolo,2.0
362,1712,G1,Apolo,2.0
363,1723,G1,Apolo,3.0
364,1740,G1,Apolo,4.0


### Métodos de resumen del dataframe

Existen diferentes métodos en `pandas` que operan directamente sobre el dataframe o las columnas. De esta forma se pueden obtener resultados rápidos y sencillos usando las funciones de resumen:

- **info():** Muestra información general del dataframe.
- **describe():**  hace el resumen de una columna del dataframe dependiendo del tipo de dato de la columna.
- **value_counts():** hace la cuenta por valores únicos de una columna.
- **mean(), sum(), std():** existen estas funciones de resumen y más.

In [123]:
# Celda para probar el código
dfp.info()
display(dfp.describe().T) ## .T dataframe transpuesto.
display(dfp.describe(include = ["O"]).T)
display(dfp['moneda'].value_counts())
#type(dfp)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 200 entries, 123 to 75
Data columns (total 18 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   C               200 non-null    object 
 1   Pais            200 non-null    object 
 2   capital         200 non-null    object 
 3   Pobla           200 non-null    float64
 4   Superf          200 non-null    float64
 5   moneda          200 non-null    object 
 6   punto mas alto  200 non-null    object 
 7   altura          200 non-null    int64  
 8   Pob-cap         200 non-null    float64
 9   Per-pob         200 non-null    object 
 10  Pib PC          199 non-null    object 
 11  Nominal         200 non-null    float64
 12  Eda-Me          195 non-null    float64
 13  E-vida          192 non-null    float64
 14  Cultiv          195 non-null    float64
 15  Fertil          194 non-null    float64
 16  Escol           159 non-null    float64
 17  Dens            200 non-null    fl

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Pobla,200.0,37.0138,137.900435,0.001,1.86925,7.143,25.57925,1379.302
Superf,200.0,670.518655,1895.406724,0.0,20.97325,115.111,507.3075,17098.0
altura,200.0,2698.485,2000.292335,2.0,1065.5,2484.0,3624.75,8848.0
Pob-cap,200.0,2671.484545,4740.727122,0.299,267.75,1151.0,2598.0,38001.0
Nominal,200.0,377.6154,1620.878657,0.0,6.6025,27.565,194.775,18620.0
Eda-Me,195.0,29.838462,8.892132,15.4,22.5,28.6,37.8,53.1
E-vida,192.0,71.933333,8.310111,50.6,66.2,74.0,77.475,89.4
Cultiv,195.0,14.547179,13.52599,0.0,3.7,10.8,20.7,59.0
Fertil,194.0,2.594381,1.258878,0.0,1.735,2.1,3.06,6.49
Escol,159.0,13.188679,3.180578,5.0,11.0,13.0,15.0,20.0


Unnamed: 0,count,unique,top,freq
C,200,5,f,55
Pais,200,200,West sahara,1
capital,200,200,Aaiun,1
moneda,200,73,Dólar,37
punto mas alto,200,195,Pico Margarita en el Monte Stanley,2
Per-pob,200,155,13.6%,5
Pib PC,199,158,1700,5


Dólar      37
Euro       25
Franco     23
Rupia       9
Dinar       8
           ..
Naira       1
Ringgit     1
Sol         1
Kwanza      1
Kuna        1
Name: moneda, Length: 73, dtype: int64

In [124]:
dfp['moneda'].value_counts()

Dólar      37
Euro       25
Franco     23
Rupia       9
Dinar       8
           ..
Naira       1
Ringgit     1
Sol         1
Kwanza      1
Kuna        1
Name: moneda, Length: 73, dtype: int64

In [125]:
dfp['moneda'].value_counts(1)

Dólar      0.185
Euro       0.125
Franco     0.115
Rupia      0.045
Dinar      0.040
           ...  
Naira      0.005
Ringgit    0.005
Sol        0.005
Kwanza     0.005
Kuna       0.005
Name: moneda, Length: 73, dtype: float64

In [126]:
## Construir una tabla de frecuencias de la columna modena del dataframe dfp

## __5. Guardar un DataFrame en un archivo.__

Usted puede generar un nuevo archivo .csv a partir de un DataFrame. Para este caso se generará un nuevo archivo que contenga solo los paises que tienen por moneda el dólar con todas las columnas que este tiene definidas.

Usted puede especificar la codificación y el separador con el cual la función *to_csv(...)* va a construir el nuevo archivo.

```Python
# filtro de DataFrame por moneda
dfp_ca = dfp[dfp['moneda']== 'Dólar']
dfp_ca
# escribiendo archivo
dfp_ca.to_csv('paises_continte_americano.csv', sep=';',encoding='utf-8')
```
La función *to_csv* reemplazará el archivo y todo el contenido original en caso de que usted deje el mísmo nombre de archivo. 


In [127]:
!pwd

/home/andres/Documentos/jupyter_books/Programacion_Python


In [128]:
# Celda de código para probar
# filtro de DataFrame por moneda
dfp_ca = dfp[dfp['moneda']== 'Dólar']
dfp_ca
# escribiendo archivo
dfp_ca.to_csv('datas/paises_continente_americano.csv', sep=';',encoding='utf-8')

### Guardar un DataFrame en un archivo .xlsx

Para guardar un DataFrame en un arhivo de Excel usted debería utilizar la función *to_excel*. Esta permite crear un nuevo archivo el cual contendrá los datos del DataFrame con sus respectivas columnas. Dentro de la función se puede especificar el nombre de hoja.

Ahora se quiere guardar el archivo **.csv** ('pais.csv') en un solo archivo **.xlsx** con dos hojas separadas para los países de América y Europa.

```Python
dfp[(dfp['c']=='m')].to_excel("DataFramePaises.xlsx", sheet_name='america')
dfp[(dfp['c']=='e')].to_excel("DataFramePaises.xlsx", sheet_name='europa')
```
Valide el resultado. Usted se podrá dar cuenta que el archivo no contiene las dos hojas. Esto indica que la función *to_excel* no añade la otra hoja, sino que sobreescribe completamente el archivo.


In [129]:
dfp.columns

Index(['C', 'Pais', 'capital', 'Pobla', 'Superf', 'moneda', 'punto mas alto',
       'altura', 'Pob-cap', 'Per-pob', 'Pib PC', 'Nominal', 'Eda-Me', 'E-vida',
       'Cultiv', 'Fertil', 'Escol', 'Dens'],
      dtype='object')

In [130]:
# Celda de código para probar
dfp[(dfp['C']=='m')].to_excel("datas/DataFramePaises.xlsx", sheet_name='america')
dfp[(dfp['C']=='e')].to_excel("datas/DataFramePaises.xlsx", sheet_name='europa')

En caso de que usted necesite en un solo archivo de Excel añadir más de una hoja y no perder el contenido, usted deberá utilizar la función *ExcelWriter* de pandas. Esta función recibe por argumentos la ruta con el nombre del archivo, y si lo requiere, el modo de uso del archivo.

```Python
# extracción de los primeros 100 registros del DataFrame del archivo base.xlsx - Religion.csv
dfp1 = dfp.iloc[:101]
dfp1
dfp2 = dfp.iloc[101:]
dfp2
with pd.ExcelWriter('datas/PaisesTrozos.xlsx') as writer:
    # añadiendo todo el dataframe
    dfp.to_excel(writer, sheet_name='t1')
    # añadiendo los primeros 100 registros.
    df1.to_excel(writer, sheet_name='t2')
```
Notese que se guarda una porción del dataframe.

In [131]:
# Celda de código para probar
dfp1 = dfp.iloc[:101]
display(dfp1)
dfp2 = dfp.iloc[101:]
display(dfp2)
with pd.ExcelWriter('datas/PaisesTrozos.xlsx') as writer:
    # añadiendo todo el dataframe
    dfp.to_excel(writer, sheet_name='t1')
    # añadiendo los primeros 100 registros.
    dfp1.to_excel(writer, sheet_name='t2')

Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
123,f,West sahara,Aaiun,0.587,266.000,Dirham,Guelta Zemmur,463,262.0,44.6%,3257,0.91,,,,,,2.2
86,a,Emiratos arabes un,Abu Dabi,6.072,83.600,Dirham,"Sin nombre, oeste Jabal Bil Ays",1910,2415.0,39.8%,67900,348.70,30.3,77.7,0.5,2.32,,72.6
169,f,Nigeria,Abuya,190.623,923.768,Naira,Chappal Waddi,2419,2440.0,1.3%,5900,405.40,18.4,53.8,37.3,5.07,,206.4
119,f,Ghana,Accra,27.500,238.533,Cedi,Monte Afadjato,880,2277.0,8.3%,4400,42.78,21.1,67.0,20.7,4.00,11.0,115.3
174,f,Etiopia,Adis abeba,105.350,1104.300,Biir,Ras Dejen,4550,3238.0,3.1%,1900,72.52,17.9,62.6,15.2,4.99,8.0,95.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6,o,Islas Marshall,Majuro,0.075,0.181,Dólar,"Sin nombre, atolón de Likiep",10,31.0,41.6%,3300,0.19,22.9,73.4,7.8,3.03,,411.6
57,f,Guinea ecuatorial,Malabo,0.778,28.000,Franco,Pico Basilé,3008,145.0,18.6%,38600,10.18,19.8,64.6,4.3,4.39,,27.8
8,a,Maldivas,Male,0.392,0.298,Rupia,"Sin nombre, atolón de Seenu",2,156.0,39.8%,15500,4.24,28.2,75.8,10.0,1.73,,1315.4
103,m,Nicaragua,Managua,6.025,130.370,Córdoba,Mogotón,2107,956.0,15.9%,5500,13.23,25.7,73.5,12.5,1.89,,46.2


Unnamed: 0,C,Pais,capital,Pobla,Superf,moneda,punto mas alto,altura,Pob-cap,Per-pob,Pib PC,Nominal,Eda-Me,E-vida,Cultiv,Fertil,Escol,Dens
128,a,Filipinas,Manila,104.250,300.000,Peso,Apo,2954,12946.000,12.4%,7700,304.90,23.5,69.4,18.2,3.02,13.0,347.5
166,f,Mozambique,Maputo,26.573,799.380,Metical,Binga,2436,1187.000,4.5%,1200,11.27,17.2,53.7,6.4,5.08,9.0,33.2
130,a,Oman,Mascate,3.424,309.500,Rial,Jabal Shams,3009,838.000,24.5%,46700,66.29,25.6,75.7,0.1,2.82,14.0,11.1
61,f,Lesoto,Maseru,1.958,30.355,Loti,Thabana Ntlenyana,3482,267.000,13.6%,3600,2.26,24.2,53.0,10.1,2.63,11.0,64.5
45,f,Suazilandia,Mbabane,1.467,17.364,Lilangeni,Emlembe,1862,66.000,4.5%,9800,3.79,21.7,52.1,9.8,2.69,11.0,84.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2,o,Nauru,Yaren,0.010,0.021,Dólar,Command Ridge,71,0.781,8.1%,11600,0.10,26.4,67.4,0.0,2.80,9.0,459.1
147,f,Camerun,Yaunde,24.994,475.440,Franco,Fako,4040,3066.000,12.3%,3200,29.33,18.5,59.0,13.1,4.64,10.0,52.6
52,f,Yibuti,Yibuti,0.865,23.200,Franco,Moussa Ali,2028,529.000,61.1%,3400,1.89,23.9,63.6,0.1,2.31,6.0,37.3
159,f,Sudan del sur,Yuba,13.026,644.329,Libra,Kinyeti,3187,321.000,2.5%,1700,3.06,17.3,,,5.07,,20.2


## Ejercicio en clase

Con los datos del archivo _examen.xlsx_ genere un archivo de hoja electrónica, en donde en cada hoja queda un profesor con sus respectivos alumnos.

In [132]:
# Celda de código para probar

## _Trabajo de exploración._

Explorar los datasets disponibles en las librerias de seaborn y plotly. Generar un reporte con los diferentes datasets en donde se pueda apreciar el número de filas y de columnas, las columnas que tiene el dataset y el tipo de dato asociado a cada columna.

In [134]:
# Celda de código para probar