# <img style="float: left; padding-right: 20px; width: 200px" src="https://raw.githubusercontent.com/raxlab/imt2200-data/main/media/logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Profesor:** Rodrigo A. Carrasco <br>
---

# <h1><center>Clase 12: Transformación de Datos</center></h1>

Este notebook continua el trabajo anterior, con el objetivo que los estudiantes del curso aprendan diferentes comandos y técnicas en Python y, en particular, en Pandas y con strings, para la transformación de datos.

## 1. Imputación de datos faltantes

Usaremos un set artificial (sintético) de datos para trabajar en imputación de datos faltantes.


In [1]:
# lectura de datos
import numpy as np
import pandas as pd

df = pd.read_csv('data\ejemplo_imp.csv')
df

  df = pd.read_csv('data\ejemplo_imp.csv')


Unnamed: 0,col1,col2,col3,col4
0,100,a,,5.4
1,200,b,5.6,
2,300,c,10.5,100.4
3,400,,12.2,30.2
4,500,e,,40.5
5,600,f,*,40.5
6,700,g,45.7,-999.0


Identificación de datos faltantes

In [2]:
df.isna()

Unnamed: 0,col1,col2,col3,col4
0,False,False,False,False
1,False,False,False,True
2,False,False,False,False
3,False,True,False,False
4,False,False,True,False
5,False,False,False,False
6,False,False,False,False


Las funciones de `pandas` no permiten identificar en forma automática todo tipo de datos faltantes o erróneos.

In [3]:
df = df.replace('*', np.nan)
df = df.replace('None', np.nan)
df = df.replace(' ', np.nan)
df = df.replace(-999, np.nan)

In [4]:
df

Unnamed: 0,col1,col2,col3,col4
0,100,a,,5.4
1,200,b,5.6,
2,300,c,10.5,100.4
3,400,,12.2,30.2
4,500,e,,40.5
5,600,f,,40.5
6,700,g,45.7,


In [5]:
df.isna()

Unnamed: 0,col1,col2,col3,col4
0,False,False,True,False
1,False,False,False,True
2,False,False,False,False
3,False,True,False,False
4,False,False,True,False
5,False,False,True,False
6,False,False,False,True


Ahora que hemos identificado correctamente los datos faltantes, podemos definir qué hacer sobre los datos que faltan.

In [6]:
df.columns

Index(['col1', 'col2', 'col3', 'col4'], dtype='object')

In [7]:
df.dropna(subset=['col2'])

Unnamed: 0,col1,col2,col3,col4
0,100,a,,5.4
1,200,b,5.6,
2,300,c,10.5,100.4
4,500,e,,40.5
5,600,f,,40.5
6,700,g,45.7,


Importante: recuerden que este método no elimina los datos en el DataFrame original y debemos asignarlo para que ello ocurra.

In [8]:
df

Unnamed: 0,col1,col2,col3,col4
0,100,a,,5.4
1,200,b,5.6,
2,300,c,10.5,100.4
3,400,,12.2,30.2
4,500,e,,40.5
5,600,f,,40.5
6,700,g,45.7,


Hagamos ahora una imputación de valores faltantes.

In [9]:
df2 = df.copy()
df2

Unnamed: 0,col1,col2,col3,col4
0,100,a,,5.4
1,200,b,5.6,
2,300,c,10.5,100.4
3,400,,12.2,30.2
4,500,e,,40.5
5,600,f,,40.5
6,700,g,45.7,


In [10]:
df2['col2'] = df2['col2'].fillna(value='d')
df2

Unnamed: 0,col1,col2,col3,col4
0,100,a,,5.4
1,200,b,5.6,
2,300,c,10.5,100.4
3,400,d,12.2,30.2
4,500,e,,40.5
5,600,f,,40.5
6,700,g,45.7,


## 2 Limpieza de textos (strings)

La limpieza no sólo puede ocurrir a nivel de columnas o filas, también puede que necesitemos limpiar texto para poder procesarlo posteriormente.

In [11]:
import requests
from bs4 import BeautifulSoup as bs

url = "https://en.wikipedia.org/wiki/2023_Rugby_World_Cup_squads"
headers = {"User-Agent": "imt2200-class-notebook"}
page = requests.get(url, headers=headers, timeout=10).text
soup = bs(page)
tables = soup.find_all('table')
# procesar la tabla 20 que tiene la escuadra de Chile
table = tables[19]

In [12]:
#creamos un DataFrame vacío con los títulos de la tabla
df = pd.DataFrame(columns = ['jugador','posicion','nacimiento','caps', 'club'])

# iterar sobre cada fila ('tr') para completar la información
for row in table.find_all('tr')[1::]:
    cols = row.find_all("td")
    #print(cols)
    cols = [col.text.strip() for col in cols]
    #print(cols)
    jugador = cols[0]
    posicion = cols[1]
    nacimiento = cols[2]
    caps = cols[3]
    club = cols[4]
    new_row = pd.DataFrame({'jugador': jugador, 'posicion': posicion, 'nacimiento': nacimiento,'caps':caps, 'club':club}, index=['jugador'])
    df = pd.concat([df, new_row], ignore_index=True)
df

Unnamed: 0,jugador,posicion,nacimiento,caps,club
0,Augusto Böhme,Hooker,(1997-06-11)11 June 1997 (aged 26),22,Selknam
1,Tomás Dussaillant,Hooker,(1990-10-06)6 October 1990 (aged 32),37,Selknam
2,Diego Escobar,Hooker,(2000-04-17)17 April 2000 (aged 23),5,Selknam
3,Javier Carrasco,Prop,(1997-08-24)24 August 1997 (aged 26),19,Selknam
4,Matías Dittus,Prop,(1993-07-16)16 July 1993 (aged 30),21,Périgueux
5,Iñaki Gurruchaga,Prop,(1995-10-13)13 October 1995 (aged 27),11,Selknam
6,Esteban Inostroza,Prop,(1994-01-01)1 January 1994 (aged 29),1,Selknam
7,Vittorio Lastra,Prop,(1996-03-26)26 March 1996 (aged 27),22,Selknam
8,Salvador Lues,Prop,(1999-11-06)6 November 1999 (aged 23),11,Selknam
9,Javier Eissman,Lock,(1997-03-21)21 March 1997 (aged 26),21,Selknam


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   jugador     34 non-null     object
 1   posicion    34 non-null     object
 2   nacimiento  34 non-null     object
 3   caps        34 non-null     object
 4   club        34 non-null     object
dtypes: object(5)
memory usage: 1.5+ KB


In [14]:
df['caps'] = df['caps'].astype('int')

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   jugador     34 non-null     object
 1   posicion    34 non-null     object
 2   nacimiento  34 non-null     object
 3   caps        34 non-null     int32 
 4   club        34 non-null     object
dtypes: int32(1), object(4)
memory usage: 1.3+ KB


In [16]:
mean_caps = df['caps'].mean()
mean_caps

16.941176470588236

In [17]:
df['caps'].describe()

count    34.000000
mean     16.941176
std      10.787033
min       0.000000
25%      11.000000
50%      15.500000
75%      22.000000
max      47.000000
Name: caps, dtype: float64

In [18]:
df['edad'] = df['nacimiento'].str.slice(-3,-1)
df['edad'] = df['edad'].astype('int')

In [19]:
df.head()

Unnamed: 0,jugador,posicion,nacimiento,caps,club,edad
0,Augusto Böhme,Hooker,(1997-06-11)11 June 1997 (aged 26),22,Selknam,26
1,Tomás Dussaillant,Hooker,(1990-10-06)6 October 1990 (aged 32),37,Selknam,32
2,Diego Escobar,Hooker,(2000-04-17)17 April 2000 (aged 23),5,Selknam,23
3,Javier Carrasco,Prop,(1997-08-24)24 August 1997 (aged 26),19,Selknam,26
4,Matías Dittus,Prop,(1993-07-16)16 July 1993 (aged 30),21,Périgueux,30


In [20]:
df['nacimiento'] = df['nacimiento'].str.slice(1,11)
df.head()

Unnamed: 0,jugador,posicion,nacimiento,caps,club,edad
0,Augusto Böhme,Hooker,1997-06-11,22,Selknam,26
1,Tomás Dussaillant,Hooker,1990-10-06,37,Selknam,32
2,Diego Escobar,Hooker,2000-04-17,5,Selknam,23
3,Javier Carrasco,Prop,1997-08-24,19,Selknam,26
4,Matías Dittus,Prop,1993-07-16,21,Périgueux,30


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   jugador     34 non-null     object
 1   posicion    34 non-null     object
 2   nacimiento  34 non-null     object
 3   caps        34 non-null     int32 
 4   club        34 non-null     object
 5   edad        34 non-null     int32 
dtypes: int32(2), object(4)
memory usage: 1.5+ KB


## 3 Variables categóricas

La posición de los jugadores corresponde a una variable categórica pues sólo puede tomar un conjunto de valores predeterminados. Supongamos que para nuestro análisis queremos dividir a los jugadores sólo entre `forwards` y `backs`.

In [22]:
# Ver valores unicos presentes en el dataset
categorias = df['posicion'].unique()
categorias

array(['Hooker', 'Prop', 'Lock', 'Back row', 'Scrum-half', 'Fly-half',
       'Centre', 'Wing', 'Fullback'], dtype=object)

In [23]:
# Definir lista de categorías que queremos
cat_simple = ['forwards','backs']

# Cuántos registros están en la lista de categorías deseadas?
df['posicion'].isin(cat_simple).sum()

0

In [24]:
# Mapeo de categorías originales a nuevas categorías
map_cats={'Hooker':'forwards',
          'Prop':'forwards',
          'Lock':'forwards',
          'Back row':'forwards',
          'Scrum-half':'backs',
          'Fly-half':'backs',
          'Centre':'backs',
          'Wing':'backs',
          'Fullback':'backs'}
df['posicion_simple'] = df['posicion'].map(map_cats)

In [25]:
df

Unnamed: 0,jugador,posicion,nacimiento,caps,club,edad,posicion_simple
0,Augusto Böhme,Hooker,1997-06-11,22,Selknam,26,forwards
1,Tomás Dussaillant,Hooker,1990-10-06,37,Selknam,32,forwards
2,Diego Escobar,Hooker,2000-04-17,5,Selknam,23,forwards
3,Javier Carrasco,Prop,1997-08-24,19,Selknam,26,forwards
4,Matías Dittus,Prop,1993-07-16,21,Périgueux,30,forwards
5,Iñaki Gurruchaga,Prop,1995-10-13,11,Selknam,27,forwards
6,Esteban Inostroza,Prop,1994-01-01,1,Selknam,29,forwards
7,Vittorio Lastra,Prop,1996-03-26,22,Selknam,27,forwards
8,Salvador Lues,Prop,1999-11-06,11,Selknam,23,forwards
9,Javier Eissman,Lock,1997-03-21,21,Selknam,26,forwards


<div class="alert alert-block alert-info">
<b> Desafío:</b> Los datos de nacimiento siguen siendo `object`, lo cual nos limita en lo que podemos hacer con eso.
    
<b>Los tres primeros que envíen este notebook transformando el dato de `nacimiento` a un dato de tipo `datetime` y validen con eso que la columna edad está correcta, tendrá +0.1 en la Tarea 2.</b>
</div>