<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Análisis de Datos y Machine Learning en Python 1**

Juan Camilo Zapata Ceballos   
Facultad de Ciencias Exactas y Naturales   
Universidad de Antioquia   
2023

# **11. Pandas I**

* <a href="#p1">11.1. Introducción</a><br>

* <a href="#p2">11.2. Series</a><br>
  - <a href="#p21">11.2.1. Atributos</a><br>
  - <a href="#p22">11.2.2. Métodos</a><br>   
  - <a href="#p23">11.2.3. Indexación y Segmentación</a><br>
  - <a href="#p24">11.2.4. Enmascaramiento y Filtrado</a><br>   

* <a href="#p3">11.3. Lectura de Archivos</a><br>

* <a href="#p4">11.4. Funciones de Visualización e Información</a><br>

* <a href="#p5">11.5. Problemas Adicionales I</a><br>




Para empezar se debe importar Pandas:

In [1]:
import pandas as pd

<p><a name="p"></a></p>

## **11.1. Introducción**

Pandas es una de las librerías de Python más populares y más usadas en la ciencia de datos. Proporciona estructuras de datos de alto nivel y funciones que están diseñadas para que el trabajo con datos estructurados y tabulares sea rápido, potente y flexible. Pandas suministra funcionalidades que facilitan la indexación, la segmentación, el enmascaramiento y el filtrado de datos. Dado que la manipulación y la limpieza de datos son habilidades importantes en la ciencia de datos, ésta es una de las herramientas más imprescindible. Finalmente, Pandas está construida sobre NumPy, por lo que hereda todos los métodos que operan sobre los arreglos.

<p><img alt="Colaboratory logo" height="90px" src="https://www.adictosaltrabajo.com/wp-content/uploads/2020/12/1200px-Pandas_logo.svg_.png" align="left" hspace="10px" vspace="0px"></p>   

<br clear="left"/>

**Objetivos:**

* Aprender la sintáxis básica para trabajar con Pandas.
* Estudiar las estructuras de datos: series y dataframes.
* Conocer los atributos y los métodos relacionados con la manipulación y la modificación de series y dataframes.
* Aplicar los conceptos de indexación, de segmentación, de enmascaramiento y de filtrado en datos tabulares.
* Diferenciar entre los atributos $log$ e $ilog$ para la indexación de datos.
* Implementar los métodos $concat$, $merge$ y $join$ para la unión y combinación de tablas.
* Experimentar con la lectura y la escritura de archivos tipo csv (texto plano), xslx (Excel) y html (web).

**Palabras Claves:** serie, dataframe, tablas, CSV, Excel, Html.

<p><a name="p2"></a></p>

## **11.2. Series**

Una Serie de Pandas es un arreglo unidimensional (1D) de datos indexados (diccionario). Puede pensarse como una columna de Excel.

<p><img alt="Colaboratory logo" height="220px" src="https://i.imgur.com/lYSmUIx.png" align="left" hspace="10px" vspace="0px"></p>

<br clear="left"/>

Para crear o inicializar una Serie se hace uso de la sintáxis `pd.Series(datos,indices,nombre,tipo)`. Veamos:

In [None]:
pd.Series(data=[1,3,5,7,9], name='Números')

In [None]:
pd.Series(data=[1,3,5,7,9], index=['a','b','c','d','e'], name='Números', dtype='float32')

<p><a name="p21"></a></p>

### **11.2.1. Atributos**



Las Series son objetos en Python, por consiguiente, poseen atributos (características) para acceder a información sobre ellas. Veamos:

<center>

| Atributo | Descripción |
|-:|:-|
| s.dtypes | Devuelve el tipo de dato de los datos en la Serie. |
| s.index  | Accede a los índices (filas) de la Serie. |
| s.name   | Devuelve el nombre de la Serie. |
| s.size   | Devuelve el número de elementos en la Serie. |
| s.values | Accede a los valores de la Serie. |

</center>


In [None]:
s = pd.Series(['a','e','i','o','u'], name='Vocales')
s

In [None]:
#Dtypes
s.dtypes

In [None]:
#Index
s.index

In [None]:
#Name
s.name

In [None]:
#Size
s.size

In [None]:
#Values
s.values

Para más información visite [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).

<p><a name="p22"></a></p>

### **11.2.2. Métodos**

Las Series son objetos en Python, por consiguiente, poseen métodos (funcionalidades) que operan sobre ellas. Algunos son:

<center>

| Método | Descripción |
|-:|:-|
| s.rename()                   | Modifica los índices de la Serie. |
| s.replace()                  | Modifica los valores de la Serie. |
| s.sort_index()               | Ordenar los índices de la Serie. |
| s.sort_values()              | Ordenar los valores de la Serie. |
| s.drop(índices)              | Elimina elementos de la Serie. |
| s.apply(funcion,argumentos)  | Aplica determinada función a los elementos de la Serie. |

</center>


In [None]:
s = pd.Series([1,4,9,16,25], name='Números')
s

In [None]:
#Rename
s.rename({3:5}, inplace=True)
s

In [None]:
#Replace
s.replace({4:2}, inplace=True)
s

Donde el parámetro `inplace=True` se usa para que los cambios surjan efecto. Además:

In [None]:
#Sort Index
s.sort_index(ascending=False)

In [None]:
#Sort Values
s.sort_values(ascending=True)

Donde el argumento `ascending` se ha implmentado para ordenar los índices y los valores de forma ascendente o descendente. Finalmente:

In [None]:
#Drop
s.drop([1,5], inplace=True)
s

In [None]:
#Apply
def funcion(n,a,b): return a*n+b
s.apply(funcion, args=(2,1))

Para más información visite [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).

### <font color='green'>**Ejercicio 1** </font>

Con el siguiente conjunto de datos cree una serie, tal que:

&emsp; $datos = [1,2,3,4,5]$   
&emsp; $indices = [$'$a$'$,\ $'$b$'$,\ $'$c$'$,\ $'$d$'$,\ $'$e$'$]$

1. Tenga como valores la lista $datos$.
2. Tenga como índices la lista $indices$.
3. Tenga como nombre la cadena '$N\text{ú}meros$'.

### <font color='green'>**Ejercicio 2** </font>

Para la siguiente lista de nombres, efectúe:

&emsp; $nombres = [$'$juan$'$,\ $'$pedro$'$,\ $'$andrea$'$,\ $'$carolina$'$]$  

1. Cree una serie cuyo nombre sea '$Alumnos$'.
2. Ponga en mayúscula las primeras letras.
3. Ordene según el alfabeto.


***Ayuda 1:*** Puede que le sea útil el método $str.title$.    
***Ayuda 2:*** Puede que le sean útiles los métodos $apply$ y $sort\_values$.   

<p><a name="p23"></a></p>

### **11.2.3. Indexación y Segmentación**

Una Serie es un diccionario especializado de Python, que a diferencia del diccionario nativo, se pueden realizar operaciones de indexación como si se tratara de un Arreglo. Veamos:

In [None]:
s = pd.Series(data=[1,2,3,4,5], index=['a','b','c','d','e'])
s

Comencemos con la indexación:

In [None]:
print(f'      Lista: {s[0]}')
print(f'Diccionario: {s["a"]}')
print(f'   Atributo: {s.a}')

Ahora intentemos la segmentación:

In [None]:
#Índices Explícitos
s['a':'c']

In [None]:
#Índices Implícitos
s[0:2]

Nótese que cuando se segmenta con un índice explícito, el índice final se incluye en la segmentación, mientras que, cuando se segmenta con un índice implícito el índice final se excluye de la segmentación. Hay que tener mucho cuidado, ya que estas convenciones de indexación y segmentación pueden ser una fuente de confusión cuando los valores del índice son numéricos. Veamos:

In [None]:
s.index = [1,3,5,7,9]
s

In [None]:
#Indexación - Índice Explícito
s[1]

In [None]:
#Segmentación - Índice Implícito
s[1:3]

Para evitar estas confusiones, Pandas proporciona atributos para la indexación y segmentación con índices explícitos e implícitos. Veamos:

In [None]:
s = pd.Series(data=[1,2,3,4,5], index=[1,3,5,7,9])
s

El atributo `loc` permite indexar y segmentar haciendo siempre referencia al índice explícito:

In [None]:
s.loc[1]

In [None]:
s.loc[1:5]

El atributo `iloc` permite indexar y segmentar haciendo siempre referencia al índice implícito:


In [None]:
s.iloc[1]

In [None]:
s.iloc[1:5]

<p><a name="p24"></a></p>

### **11.2.4. Enmascaramiento y Filtrado**

El enmascaramiento y el filtrado se usan para acceder o modificar valores en una Serie de acuerdo con alguna condición. Veamos:

In [None]:
s = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])
s

In [None]:
#Enmascaramiento
s>2

In [None]:
#Filtrado - Una Condición
s.loc[s>2]

In [None]:
#Filtrado - Varias Condiciones
s.loc[(s>2) & (s<5)]

### <font color='green'>**Ejercicio 3** </font>

Lleve a cabo el ejercicio resuelto 9.14 usando series e implemente los atributos $loc$ e $iloc$ para la indexación.

### <font color='green'>**Ejercicio 4** </font>

Lleve a cabo el ejercicio propuesto 9.33 usando series.

<p><a name="p3"></a></p>

## **11.3. Lectura de Archivos**

In [2]:
import pandas as pd

In [10]:
#CSV
pd.read_csv('sesion_18_lectura.csv', sep=',', encoding='latin1')

Unnamed: 0,País,Capital,Población,Año
0,Suiza,Berna,8.6,2015
1,Australia,Canberra,25.4,2018
2,Canadá,Ottawa,38.0,2018
3,Colombia,Bogotá,50.1,2015
4,Rusia,Moscú,140.5,2019


In [21]:
#Excel
pd.read_excel('sesion_18_lectura.xlsx', sheet_name='Hoja B')

Unnamed: 0,País,Capital,Población,Año
0,Suiza,Berna,8.6,2015
1,Australia,Canberra,25.4,2018
2,Canadá,Ottawa,38.0,2018
3,Colombia,Bogotá,50.1,2015
4,Inglaterra,Londres,91.5,2017


In [26]:
#HTML
pd.read_html('https://es.wikipedia.org/wiki/Am%C3%A9rica_del_Sur',  match='Moneda')[0]

Unnamed: 0,País,Moneda actual,Código ISO
0,Argentina,Peso argentino,ARS
1,Bolivia,Boliviano,BOB
2,Brasil,Real brasileño,BRL
3,Chile,Peso chileno,CLP
4,Colombia,Peso colombiano,COP
5,Ecuador,Dólar estadounidense,USD
6,Guayana Francesa,Euro,EUR
7,Guyana,Dólar guyanés,GYD
8,Paraguay,Guaraní paraguayo,PYG
9,Perú,Sol,PEN


Estas tablas que se han importado se conocen en Pandas como DataFrames.

Para más información visite [IO Tools](https://pandas.pydata.org/docs/user_guide/io.html). Además, si necesita bases de datos gratuitas para experimentar, use la plataforma [Kaggle](https://www.kaggle.com/datasets).

In [27]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [30]:
df = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/Análisis de Datos y Machine Learning en Python 1 (C2) (2023-2)/Datos/Pandas 2.0/Ciudades.xlsx')
df

Unnamed: 0,Ciudad,País,Continente,Población
0,Tokyo,Japan,Asia,37468000
1,Delhi,India,Asia,28514000
2,Shanghai,China,Asia,25582000
3,Sao Paulo,Brazil,South America,21650000
4,Mexico City,Mexico,North America,21581000
...,...,...,...,...
76,Washington,United States,North America,5207000
77,Yangon,Myanmar,Asia,5157000
78,Alexandria,Egypt,Africa,5086000
79,Jinan,China,Asia,5052000


In [32]:
df.loc[0,'Ciudad'] = 'Medellin'

In [33]:
df

Unnamed: 0,Ciudad,País,Continente,Población
0,Medellin,Japan,Asia,37468000
1,Delhi,India,Asia,28514000
2,Shanghai,China,Asia,25582000
3,Sao Paulo,Brazil,South America,21650000
4,Mexico City,Mexico,North America,21581000
...,...,...,...,...
76,Washington,United States,North America,5207000
77,Yangon,Myanmar,Asia,5157000
78,Alexandria,Egypt,Africa,5086000
79,Jinan,China,Asia,5052000


In [34]:
df.to_excel('Cambios.xlsx')

### <font color='green'>**Ejercicio 5** </font>

¿Cuáles son las diferencias entre los archivos csv, xlsx y html?

<p><a name="p4"></a></p>

## **11.4. Funciones de Visualización e Información**

En lo referente a los DataFrames, Pandas posee un conjunto de métodos que se usan con mucha frecuencia a la hora de hacer un primer acercamiento a la base de datos. Algunos son:

<center>

| Atributo | Descripción |
|-:|:-|
| df.head(n)           | Devuelve las primeras n filas del DataFrame. |
| df.tail(n)           | Devuelve las últimas n filas del DataFrame. |
| df.sample(n)         | Devuelve una muestra aleatoria de n elementos del DataFrame. |
| df.info()            | Imprime información importante sobre el DataFrame. |
| df.memory_usage()    | Devuelve el uso de memoria de cada columna en Bytes. |
| df.describe()        | Genera información de estadística descriptiva. |

</center>

Veamos:

In [82]:
df = pd.read_csv('Libros.csv', sep=',', header=0)
df

Unnamed: 0,Name,Author,Reviews,Price,Year,Genre
0,What Happened,Hillary Rodham Clinton,5492,18,2017,Non Fiction
1,The Help,Kathryn Stockett,13871,8,2011,Fiction
2,One Thousand Gifts: A Dare to Live Fully Right...,Ann Voskamp,3163,13,2012,Non Fiction
3,Unfreedom of the Press,Mark R. Levin,5956,11,2019,Non Fiction
4,Ultimate Sticker Book: Frozen: More Than 60 Re...,DK,2586,5,2014,Fiction
...,...,...,...,...,...,...
95,Good to Great: Why Some Companies Make the Lea...,Jim Collins,3457,14,2012,Non Fiction
96,The Pioneer Woman Cooks: A Year of Holidays: 1...,Ree Drummond,2663,17,2013,Non Fiction
97,School Zone - Big Preschool Workbook - Ages 4 ...,School Zone,23047,6,2018,Non Fiction
98,The 7 Habits of Highly Effective People: Power...,Stephen R. Covey,4725,16,2017,Non Fiction


Para visualización:

In [42]:
#Head
df.head(5)

Unnamed: 0,Name,Author,Reviews,Price,Year,Genre
0,What Happened,Hillary Rodham Clinton,5492,18,2017,Non Fiction
1,The Help,Kathryn Stockett,13871,8,2011,Fiction
2,One Thousand Gifts: A Dare to Live Fully Right...,Ann Voskamp,3163,13,2012,Non Fiction
3,Unfreedom of the Press,Mark R. Levin,5956,11,2019,Non Fiction
4,Ultimate Sticker Book: Frozen: More Than 60 Re...,DK,2586,5,2014,Fiction


In [43]:
#Tail
df.tail(5)

Unnamed: 0,Name,Author,Reviews,Price,Year,Genre
95,Good to Great: Why Some Companies Make the Lea...,Jim Collins,3457,14,2012,Non Fiction
96,The Pioneer Woman Cooks: A Year of Holidays: 1...,Ree Drummond,2663,17,2013,Non Fiction
97,School Zone - Big Preschool Workbook - Ages 4 ...,School Zone,23047,6,2018,Non Fiction
98,The 7 Habits of Highly Effective People: Power...,Stephen R. Covey,4725,16,2017,Non Fiction
99,The Art of Racing in the Rain: A Novel,Garth Stein,11813,10,2011,Fiction


In [66]:
#Sample
df.sample(5, random_state=0)

Unnamed: 0,Name,Author,Reviews,Price,Year,Genre
26,The Life-Changing Magic of Tidying Up: The Jap...,Marie Kondō,22641,11,2019,Non Fiction
86,"The Plant Paradox: The Hidden Dangers in ""Heal...",Dr. Steven R Gundry MD,7058,17,2018,Non Fiction
2,One Thousand Gifts: A Dare to Live Fully Right...,Ann Voskamp,3163,13,2012,Non Fiction
55,Origin: A Novel (Robert Langdon),Dan Brown,18904,13,2017,Fiction
75,Last Week Tonight with John Oliver Presents A ...,Jill Twiss,11881,13,2018,Fiction


Para información:

In [69]:
df.loc[0, 'Price'] = "10"

In [70]:
df.head(5)

Unnamed: 0,Name,Author,Reviews,Price,Year,Genre
0,What Happened,Hillary Rodham Clinton,5492,10,2017,Non Fiction
1,The Help,Kathryn Stockett,13871,8,2011,Fiction
2,One Thousand Gifts: A Dare to Live Fully Right...,Ann Voskamp,3163,13,2012,Non Fiction
3,Unfreedom of the Press,Mark R. Levin,5956,11,2019,Non Fiction
4,Ultimate Sticker Book: Frozen: More Than 60 Re...,DK,2586,5,2014,Fiction


In [76]:
df.loc[0, 'Price'], df.loc[1, 'Price']

('10', 8)

In [72]:
#Information
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Name     100 non-null    object
 1   Author   100 non-null    object
 2   Reviews  100 non-null    int64 
 3   Price    100 non-null    object
 4   Year     100 non-null    int64 
 5   Genre    100 non-null    object
dtypes: int64(2), object(4)
memory usage: 4.8+ KB


In [79]:
#Memory Usage
df.memory_usage(deep=True)

Index        128
Name       11065
Author      7153
Reviews      800
Price       3619
Year         800
Genre       6648
dtype: int64

In [80]:
#Statistical Information
df.describe()

Unnamed: 0,Reviews,Year
count,100.0,100.0
mean,11749.08,2014.07
std,13087.348055,3.245058
min,37.0,2009.0
25%,3422.5,2011.0
50%,7502.5,2014.0
75%,16370.5,2017.0
max,79446.0,2019.0


Para más información visite [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

### <font color='green'>**Ejercicio 6** </font>

Cargue el archivo *ParticipacionesMundiales.xlsx* y responda:

1. ¿Cuántas filas tiene la base de datos?
2. ¿Cuántas columnas tiene la base de datos?
3. ¿Cuáles son los tipos de datos?

***Ayuda 1:*** El archivo se encuentra en la carpeta *Datos/Pandas*.    
***Ayuda 2:*** Puede que le sea útil el método $info$.   

### <font color='green'>**Ejercicio 7** </font>

A partir de la base de datos del ejercicio resuelto 11.6, ¿cuáles son las columnas que ocupan más espacio y por qué?

***Ayuda:*** Puede que le sea útil el método $memory\_usage$.

<p><a name="p5"></a></p>

## **11.5. Problemas Adicionales I**

### <font color='green'>**Ejercicio Propuesto 5** </font>

Multiplique por $2$ y sume más $1$ a los valores de la serie del ejercicio resuelto 11.1.

***Ayuda:*** Puede que le sea útil el método $apply$.   

### <font color='green'>**Ejercicio Propuesto 7** </font>

Para la siguiente lista de apellidos, efectúe:

&emsp; $apellidos = [$'$p\text{é}rez$'$,\ $'$g\text{ó}mez$'$,\ $'$l\text{ó}pez$'$,\ $'$fern\text{á}ndez$'$]$  

1. Cree una serie cuyo nombre sea ´$Apellidos$´.
2. Ponga en mayúscula las primeras letras.
3. Quite las tildes de todas las cadenas de caracteres.
4. Ordene en contra del alfabeto.

***Ayuda:*** Use los resultados de los ejercicios resueltos 8.6 y 11.2.  

### <font color='green'>**Ejercicio Propuesto 8** </font>

Con el diccionario alojado en el archivo *EP\_11\_8.txt*, efectúe:

1. Cree una serie con este conjunto de datos.
2. ¿Cuáles son los valores?
3. ¿Cuáles son los índices?
4. Organice la base de datos en orden alfabético.
5. Multiplíquelos por $2$ los valores sin sobreescribir.

Conociendo bien el funcionamiento del último punto. Si $30$ es el valor máximo de puntos que pueden obtener los estudiantes. Reemplace los valores númericos por su equivalemente en una escala de $0$ a $5$, es decir, si se tienen $15$ puntos (mitad de $30$), este estudiante sacaría una nota de $2.5$. Redondee la nota a un decimal.

***Ayuda 1:*** El archivo se encuentra en la carpeta *Datos/Pandas*.   
***Ayuda 2:***  Puede que le sea útil el método $round$.

### <font color='green'>**Ejercicio Propuesto 16** </font>

A partir del archivo *ParticipacionesMundiales.xslx*, responda:

1. ¿Cuál es la mayor cantidad de finales ganadas?
2. ¿Cuál es la mayor cantidad de finales disputadas?
3. ¿Cuál es la menor cantidad de participaciones?
4. ¿Cuáles son los tres mejores equipos?
5. ¿Cuáles son los tres peores equipos?

***Ayuda 1:*** El archivo se encuentra en la carpeta *Datos/Pandas*.  
***Ayuda 2:*** Puede que le sea útil el método $describe$.   
***Ayuda 3:*** Puede que le sean útiles los métodos $head$ y $tail$.   