<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Análisis de Datos y Machine Learning en Python 1**

Juan Camilo Zapata Ceballos   
Facultad de Ciencias Exactas y Naturales   
Universidad de Antioquia   
2023

# **11. Pandas II**

* <a href="#p6">11.6. DataFrames</a><br>
  - <a href="#p61">11.6.1. Atributos</a><br>
  - <a href="#p62">11.6.2. Métodos</a><br>   
  - <a href="#p63">11.6.3. Indexación y Segmentación</a><br>
  - <a href="#p64">11.6.4. Enmascaramiento y Filtrado</a><br>  

* <a href="#p7">11.7. Problemas Adicionales II</a><br>


Para empezar se debe importar Pandas:

In [None]:
import pandas as pd

<p><a name="p6"></a></p>

## **11.6. DataFrames**


Un DataFrame de Pandas es un arreglo bidimensional (2D) de datos indexados (matriz). Puede pensarse como una tabla de Excel.

<p><img alt="Colaboratory logo" height="220px" src="https://i.imgur.com/1s3PPpq.png" align="left" hspace="10px" vspace="0px"></p>

<br clear="left"/>

Para crear o inicializar un DataFrame se hace uso de la sintáxis `pd.DataFrame(datos,indices,columnas)`. Veamos:

In [None]:
datos = {'País':['Suiza','Australia','Canadá','Colombia','Rusia'],
        'Capital':['Berna','Canberra','Ottawa','Bogotá','Moscú'],
        'Población':[8.6,25.4,38,50.1,140.5],
        'Año':[2015,2018,2018,2015,2019]}

pd.DataFrame(data=datos)

O bien se puede importar una base datos de un archivo o página web.

<p><a name="p61"></a></p>

### **11.6.1. Atributos**

Los DataFrames son objetos en Python, por consiguiente, poseen atributos (características) para acceder a información sobre estos. Veamos:

<center>

| Atributo | Descripción |
|-:|:-|
| df.columns | Accede a las columnas del DataFrame. |
| df.dtypes  | Devuelve el tipo de dato de los datos en el DataFrame. |
| df.index   | Accede a los índices (filas) del DataFrame. |
| df.size    | Devuelve el número de elementos en el DataFrame. |
| df.shape   | Devuelve las dimensiones del DataFrame: (filas, columnas). |
| df.T       | Traspone el DataFrame. |
| df.values  | Accede a los valores del DataFrame. |

</center>

In [None]:
df = pd.DataFrame(data=datos)
df

In [None]:
#Columns
df.columns

In [None]:
#Types
df.dtypes

In [None]:
#Index
df.index

In [None]:
#Size
df.size

In [None]:
#Shape
df.shape

In [None]:
#Traspose
df.T

In [None]:
#Values
df.values

Para más información visite [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

<p><a name="p62"></a></p>

### **11.6.2. Métodos**

Los DataFrames son objetos en Python, por consiguiente, poseen métodos (funcionalidades) que operan sobre ellas. Algunos son:

<center>

| Método | Descripción |
|-:|:-|
| s.rename(índices,columnas)   | Modifica los índices (filas) y las columnas del DataFrame. |
| s.replace()                  | Modifica los valores del DataFrame. |
| s.sort_index()               | Ordenar los índices del DataFrame. |
| s.sort_values()              | Ordenar los valores del DataFrame. |
| s.drop(índices,columnas)     | Elimina elementos del DataFrame. |
| s.apply(funcion,argumentos)  | Aplica determinada función a los elementos del DataFrame. |

</center>

In [None]:
df = pd.DataFrame(data=datos)
df

In [None]:
#Rename
df.rename(index={1:'B'}, columns={'Capital':'C'}, inplace=True)
df

In [None]:
#Replace
df.replace({'Año':2015}, 2022, inplace=True)
df

Recuerde que los cambios surgen efecto con el parámetro `inplace=True`. Además:

In [None]:
#Sort Index
df.sort_index(ascending=False)

In [None]:
#Sort Values
df.sort_values(by=['País'], ascending=False)

In [None]:
df.sort_values(by=['Año','País'], ascending=True)

Recuerde que con el argumento `ascending` se ordenar los índices y los valores de forma ascendente o descendente. Finalmente:

In [None]:
#Drop Row/Rows
df.drop(index=0)

In [None]:
df.drop(index=[2,4])

In [None]:
#Drop Column/Columns
df.drop(columns='Población')

In [None]:
df.drop(columns=['Capital','Año'])

Para más información visite [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

<p><a name="p63"></a></p>

### **11.6.3. Indexación y Segmentación**

Para indexar y segmentar un DataFrame con un estilo sofisticado y útil se usan los atributos `loc` e `iloc`. Veamos:

In [None]:
df = pd.DataFrame(data=datos)
df

El atributo `loc` permite indexar y segmentar haciendo siempre referencia al índice explícito y a los nombres de las columnas:

In [None]:
#Primera Fila
df.loc[0, :]

In [None]:
#Primera y Columna 'Población'
df.loc[:, 'Población']

In [None]:
#Segmentación Sofisticada
df.loc[0:2, 'País':'Población']

In [None]:
#Segmentación Sofisticada
df.loc[0:2, ['Capital','Población']]

El atributo `iloc` permite indexar y segmentar haciendo siempre referencia al índice implícito y a las posiciones de las columnas:


In [None]:
#Primera Fila
df.iloc[0, :]

In [None]:
#Primera y Columna 'Población'
df.iloc[:, 2]

In [None]:
#Segmentación Sofisticada
df.iloc[0:3, 0:3]

In [None]:
#Segmentación Sofisticada
df.iloc[0:3, [1,2]]

<p><a name="p64"></a></p>

### **11.6.4. Enmascaramiento y Filtrado**

El enmascaramiento y el filtrado se usan para acceder o modificar valores en un DataFrame de acuerdo con alguna condición. Veamos:

In [None]:
df = pd.DataFrame(data=datos)
df

In [None]:
#Enmascaramiento
df.loc[:, 'Población']<30

In [None]:
#Filtrado - Una Condición
cond = df.loc[:, 'Población']<30
df.loc[cond, :]

In [None]:
#Filtrado - Varias Condiciones
cond = (df.loc[:, 'Población']<40) & (df.loc[:, 'Año']==2018)
df.loc[cond, :]

Además, se puede usar el método `between` para seleccionar elementos en un rango dado:

In [None]:
cond = df.loc[:, 'Población'].between(5,15)
df.loc[cond, :]

O el método `isin` para seleccionar datos cuyo valor está en una lista de valores:

In [None]:
cond = df.loc[:, 'País'].isin(['Canadá','Colombia'])
df.loc[cond, :]

### <font color='green'>**Ejercicio 8** </font>

Cargue el archivo *Competencia.xlsx* y efectúe:

1. Cree un dataframe con esta base de datos.
2. Cambie los índices a las letras del alfabeto.
3. Seleccione las primeras tres filas.
4. Seleccione las columnas $Nombre$ y $Puntaje$.
5. Seleccione las filas $2$, $4$ y $7$ y las columnas $Puntaje$ y $Aprueba$.
6. Agregue una nueva columna con la etiqueta $Primer \ Intento$ y rellene con la palabra $No$.
7. Agregue una nueva fila con etiqueta $j$ con los valores que desee para cada columna.
8. Elimine la fila $c$.
9. Ordene el dataframe por la columna $Puntaje$ de mayor a menor y luego por la columna $Intentos$ de menor a mayor.
10. Reemplace los valores de la columna $Aprueba$ que contiene los valores $Yes$ y $Not$, por los valores $S\text{í}$ y $No$.
11. Filtre los datos donde el número de $Intentos$ sea mayor que $2$.
12. Filtre los datos donde el $Puntaje$ se encuentre entre $15$ y $20$.
13. Filtre los datos donde el número de $Intentos$ sea igual a $2$ y cuyo $Puntaje$ sea menor o igual a $10$.
14. Filtre los datos que tengan como nombres a Ana, Laura y Kevin.
15. Cambie los valores a $S\text{í}$ en $Primer \ Intento$ de así serlo.

***Ayuda 1:*** El archivo se encuentra en la carpeta *Datos/Pandas*.    
***Ayuda 2:*** Puede que le sean útiles los atributos $index$, $loc$ e $iloc$.   
***Ayuda 3:*** Para crear una fila/columna, indexe como si existiera.         
***Ayuda 4:*** Puede que le sean útiles los métodos $drop$ y $sort\_values$.  
***Ayuda 5:*** Puede que le sean útiles los métodos $between$ y $isin$.  


<p><a name="p7"></a></p>

## **11.7. Problemas Adicionales II**

### <font color='green'>**Ejercicio Propuesto 18** </font>

A partir del ejercicio propuesto 11.16, efectúe y responda:

1. Filtre aquellos equipos que tengan entre $1$ y $3$ campeonatos.
2. Filtre aquellos equipos que han pasado a más de $15$ mundiales y juegan en Europa (son de la $UEFA$).
3. ¿Cuáles son los equipos que han perdido $2$ o más finales?
4. ¿Cuáles son los equipos que han jugado finales pero no han quedado campeones?

***Ayuda:*** Puede que le sea útil el método $between$.

### <font color='green'>**Ejercicio Propuesto 20** </font>

Con el diccionario del ejecicio propuesto 11.8, efectúe:

1. Adicione a cada estudiante un correo electrónico, en minúscula y sin tildes, con la forma $nombre.apellido@udea.edu.co$.
2. Agregue, luego del correo, la palabra '$SÍ$'.
3. Cree un dataframe con este conjunto de datos, tal que, sus columnas estén nombradas como: $Puntaje$, $Correo$ y $Aprob\text{ó}$, y los índices deben ser los nombres organizados en orden alfabético.
4. Ponga los nombres de los estudiantes en una columna llamada $Nombre$ y renombre los índices para tomar valores númericos, empezando desde $1$.
5. Agrege una columna llamada $Nota$, que contenga la nota de los estudiantes en una escala de $0$ a $5$. Tome como puntaje mínimo $0$ puntos y máximo $30$. Redondee a un decimal.
6. Cambie el estado de la columna $Aprob\text{ó}$ a $No$, si el estudiante tiene una nota menor a $3.0$.
7. Organice las columnas del dataframe en el orden: $Nombre$, $Correo$, $Puntaje$, $Nota$ y $Aprobó$.

***Ayuda 1:*** Use los resultado del ejercicio resuelto 8.6.  
***Ayuda 2:*** Puede que le sean útiles los atributos $index$ y $columns$.    
***Ayuda 3:*** Puede que le sea útil el método $sort\_index$.   
***Ayuda 4:*** Para crear una columna, indexe como si existiera.       
***Ayuda 5:*** Puede que le sea útil el método $reindex$. Consulte.     

### <font color='green'>**Ejercicio Propuesto 21** </font>

Escriba una función para traducir a español, una lista con palabras.

***Ayuda:*** Use la librería googletrans. Consulte.

### <font color='green'>**Ejercicio Propuesto 22** </font>

A partir del archivo *Libros.csv*, efectúe:

1. Cargue la base de datos y conviértala en un dataframe.
2. Traduzca el nombre de las columnas al español.
3. Cree una tabla con autores que tengan $3$ o más publicaciones.
4. Organice este nuevo dataframe en orden alfabético por $Autor$, $Nombre$ y por $A\text{ñ}o$ de menor a mayor.
5. Quédese con los libros por $Autor$ más actuales.  
6. Reinicie los índices para comenzar $0$.

***Ayuda 1:*** El archivo se encuentra en la carpeta *Datos/Pandas*.    
***Ayuda 2:*** Use los resultados del ejercicio propuesto 11.21.      
***Ayuda 3:*** Puede que le sea útil el método $sort\_values$.   
***Ayuda 4:*** Puede que le sea útil el método $drop\_duplicates$. Consulte.   
***Ayuda 5:*** Puede que le sea útil el método $reset\_index$. Consulte.

