# Clase 11: Trabajo con texto, fechas y categorías

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

## Objetivos


- Profundizar el uso de los multi-índices de pandas.
- Reorganizar los datos usando `melt`.
- Comprender el cómo manipular y analizar de manera eficiente texto, fechas y categorías y efectiva t con Pandas.

In [1]:
import pandas as pd

dataset_original = pd.read_csv("../../recursos/2023-02/pandas-3/bli_original.csv", keep_default_na=False)

### Multi-Índices

Hasta el momento solo hemos trabajado con `Dataframes` que contienen solo un nivel de filas o columnas. Sin embargo, es posible también agregar más niveles a los indices y a las columnas. 
Esto se le conoce como multi-índice.

In [2]:
dataset_original.loc[:, 
                     ["Continent", 
                      "Country", 
                      "Indicator", 
                      "Unit", 
                      "Value"]].head()

Unnamed: 0,Continent,Country,Indicator,Unit,Value
0,OC,Australia,Labour market insecurity,Percentage,5.4
1,EU,Austria,Labour market insecurity,Percentage,3.5
2,EU,Belgium,Labour market insecurity,Percentage,3.7
3,,Canada,Labour market insecurity,Percentage,6.0
4,EU,Czech Republic,Labour market insecurity,Percentage,3.1


Para agregar niveles de columnas, en el proceso de pivoteo vamos a indicar que tanto `Unit` como `Indicator` sean niveles de las columnas; y que a la vez, tanto `Continent` como `Country` sean indices para las filas. 

El resultado de esto puede ser visto en el siguiente `DataFrame`:

In [3]:
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)

In [4]:
dataset_multindex = pd.pivot_table(
    dataset_original,
    index=["Continent", "Country"],
    columns=["Unit", "Indicator"],
    values="Value",
)
dataset_multindex

Unnamed: 0_level_0,Unit,Average score,Average score,Average score,Hours,Micrograms per cubic metre,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Ratio,Ratio,US Dollar,US Dollar,US Dollar,Years,Years
Unnamed: 0_level_1,Indicator,Life satisfaction,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Housing expenditure,Labour market insecurity,Long-term unemployment rate,Quality of support network,Self-reported health,Voter turnout,Water quality,Homicide rate,Rooms per person,Household net adjusted disposable income,Household net wealth,Personal earnings,Life expectancy,Years in education
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2
AF,South Africa,4.7,,,14.77,22.0,37.0,73.333333,17.84,43.333333,36.333333,18.0,,16.643333,88.0,,73.0,67.0,14.0,,,,,57.5,
AS,Israel,7.225,2.5,470.0,,21.0,,87.333333,15.273333,69.0,69.966667,,4.2,0.486667,88.5,86.75,72.0,67.0,1.833333,1.2,,,35067.0,82.466667,15.633333
AS,Japan,5.9,1.4,528.8,,14.0,6.4,,,75.0,72.8,22.0,2.22,0.996667,88.75,34.8,53.0,87.0,0.2,1.9,29798.0,305878.0,40863.0,84.066667,16.366667
AS,Korea,5.866667,2.9,520.0,14.583333,28.0,2.5,87.666667,,66.666667,66.666667,15.0,2.302,0.05,78.333333,33.0,77.0,76.0,1.0,1.5,21882.0,285980.0,35191.0,82.366667,17.266667
EU,Austria,7.225,1.3,492.8,14.53,16.0,0.9,85.0,6.59,72.0,80.7,21.0,4.076,1.83,92.0,70.6,80.0,92.0,0.466667,1.6,33541.0,308325.0,50349.0,81.7,17.0
EU,Belgium,7.0,2.0,503.8,15.663333,15.0,1.9,77.0,4.703333,63.333333,70.266667,21.0,4.052,3.533333,92.0,73.6,89.0,83.666667,1.033333,2.2,30364.0,386006.0,49675.0,81.5,19.3
EU,Czech Republic,6.7,1.6,492.2,,20.0,0.7,93.666667,5.496667,73.666667,72.533333,24.0,7.208,1.056667,91.75,60.8,61.0,86.666667,0.5,1.4,21453.0,,25372.0,79.1,17.9
EU,Denmark,7.65,2.0,505.2,15.873333,9.0,0.5,81.0,2.316667,74.0,83.566667,23.0,4.606,1.313333,95.5,72.6,86.0,95.0,0.6,1.9,29606.0,118637.0,51466.0,80.9,19.5
EU,Estonia,5.78,2.7,525.8,14.886667,8.0,7.0,88.666667,2.436667,74.0,69.633333,17.0,4.392,1.916667,91.2,54.4,64.0,84.0,3.166667,1.6,19697.0,159373.0,24336.0,77.766667,17.7
EU,Finland,7.66,2.2,523.6,15.163333,6.0,0.5,88.0,3.816667,70.333333,85.266667,23.0,4.508,2.123333,94.8,70.2,67.0,95.0,1.266667,1.9,29943.0,200827.0,42964.0,81.5,19.833333


In [5]:
dataset_multindex.index

MultiIndex([(  'AF',    'South Africa'),
            (  'AS',          'Israel'),
            (  'AS',           'Japan'),
            (  'AS',           'Korea'),
            (  'EU',         'Austria'),
            (  'EU',         'Belgium'),
            (  'EU',  'Czech Republic'),
            (  'EU',         'Denmark'),
            (  'EU',         'Estonia'),
            (  'EU',         'Finland'),
            (  'EU',          'France'),
            (  'EU',         'Germany'),
            (  'EU',          'Greece'),
            (  'EU',         'Hungary'),
            (  'EU',         'Iceland'),
            (  'EU',         'Ireland'),
            (  'EU',           'Italy'),
            (  'EU',          'Latvia'),
            (  'EU',       'Lithuania'),
            (  'EU',      'Luxembourg'),
            (  'EU',     'Netherlands'),
            (  'EU',          'Norway'),
            (  'EU',          'Poland'),
            (  'EU',        'Portugal'),
            (  '

Ojo que las columnas también son Indices!

In [6]:
dataset_multindex.columns.values

array([('Average score', 'Life satisfaction'),
       ('Average score', 'Stakeholder engagement for developing regulations'),
       ('Average score', 'Student skills'),
       ('Hours', 'Time devoted to leisure and personal care'),
       ('Micrograms per cubic metre', 'Air pollution'),
       ('Percentage', 'Dwellings without basic facilities'),
       ('Percentage', 'Educational attainment'),
       ('Percentage', 'Employees working very long hours'),
       ('Percentage', 'Employment rate'),
       ('Percentage', 'Feeling safe walking alone at night'),
       ('Percentage', 'Housing expenditure'),
       ('Percentage', 'Labour market insecurity'),
       ('Percentage', 'Long-term unemployment rate'),
       ('Percentage', 'Quality of support network'),
       ('Percentage', 'Self-reported health'),
       ('Percentage', 'Voter turnout'), ('Percentage', 'Water quality'),
       ('Ratio', 'Homicide rate'), ('Ratio', 'Rooms per person'),
       ('US Dollar', 'Household net adjusted di

Podemos acceder a los indices de cada nivel usando `get_level_values`

In [7]:
dataset_multindex

Unnamed: 0_level_0,Unit,Average score,Average score,Average score,Hours,Micrograms per cubic metre,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Ratio,Ratio,US Dollar,US Dollar,US Dollar,Years,Years
Unnamed: 0_level_1,Indicator,Life satisfaction,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Housing expenditure,Labour market insecurity,Long-term unemployment rate,Quality of support network,Self-reported health,Voter turnout,Water quality,Homicide rate,Rooms per person,Household net adjusted disposable income,Household net wealth,Personal earnings,Life expectancy,Years in education
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2
AF,South Africa,4.7,,,14.77,22.0,37.0,73.333333,17.84,43.333333,36.333333,18.0,,16.643333,88.0,,73.0,67.0,14.0,,,,,57.5,
AS,Israel,7.225,2.5,470.0,,21.0,,87.333333,15.273333,69.0,69.966667,,4.2,0.486667,88.5,86.75,72.0,67.0,1.833333,1.2,,,35067.0,82.466667,15.633333
AS,Japan,5.9,1.4,528.8,,14.0,6.4,,,75.0,72.8,22.0,2.22,0.996667,88.75,34.8,53.0,87.0,0.2,1.9,29798.0,305878.0,40863.0,84.066667,16.366667
AS,Korea,5.866667,2.9,520.0,14.583333,28.0,2.5,87.666667,,66.666667,66.666667,15.0,2.302,0.05,78.333333,33.0,77.0,76.0,1.0,1.5,21882.0,285980.0,35191.0,82.366667,17.266667
EU,Austria,7.225,1.3,492.8,14.53,16.0,0.9,85.0,6.59,72.0,80.7,21.0,4.076,1.83,92.0,70.6,80.0,92.0,0.466667,1.6,33541.0,308325.0,50349.0,81.7,17.0
EU,Belgium,7.0,2.0,503.8,15.663333,15.0,1.9,77.0,4.703333,63.333333,70.266667,21.0,4.052,3.533333,92.0,73.6,89.0,83.666667,1.033333,2.2,30364.0,386006.0,49675.0,81.5,19.3
EU,Czech Republic,6.7,1.6,492.2,,20.0,0.7,93.666667,5.496667,73.666667,72.533333,24.0,7.208,1.056667,91.75,60.8,61.0,86.666667,0.5,1.4,21453.0,,25372.0,79.1,17.9
EU,Denmark,7.65,2.0,505.2,15.873333,9.0,0.5,81.0,2.316667,74.0,83.566667,23.0,4.606,1.313333,95.5,72.6,86.0,95.0,0.6,1.9,29606.0,118637.0,51466.0,80.9,19.5
EU,Estonia,5.78,2.7,525.8,14.886667,8.0,7.0,88.666667,2.436667,74.0,69.633333,17.0,4.392,1.916667,91.2,54.4,64.0,84.0,3.166667,1.6,19697.0,159373.0,24336.0,77.766667,17.7
EU,Finland,7.66,2.2,523.6,15.163333,6.0,0.5,88.0,3.816667,70.333333,85.266667,23.0,4.508,2.123333,94.8,70.2,67.0,95.0,1.266667,1.9,29943.0,200827.0,42964.0,81.5,19.833333


In [8]:
dataset_multindex.columns.get_level_values(0)

Index(['Average score', 'Average score', 'Average score', 'Hours',
       'Micrograms per cubic metre', 'Percentage', 'Percentage', 'Percentage',
       'Percentage', 'Percentage', 'Percentage', 'Percentage', 'Percentage',
       'Percentage', 'Percentage', 'Percentage', 'Percentage', 'Ratio',
       'Ratio', 'US Dollar', 'US Dollar', 'US Dollar', 'Years', 'Years'],
      dtype='object', name='Unit')

In [9]:
dataset_multindex.columns.get_level_values(1)

Index(['Life satisfaction',
       'Stakeholder engagement for developing regulations', 'Student skills',
       'Time devoted to leisure and personal care', 'Air pollution',
       'Dwellings without basic facilities', 'Educational attainment',
       'Employees working very long hours', 'Employment rate',
       'Feeling safe walking alone at night', 'Housing expenditure',
       'Labour market insecurity', 'Long-term unemployment rate',
       'Quality of support network', 'Self-reported health', 'Voter turnout',
       'Water quality', 'Homicide rate', 'Rooms per person',
       'Household net adjusted disposable income', 'Household net wealth',
       'Personal earnings', 'Life expectancy', 'Years in education'],
      dtype='object', name='Indicator')

También a cierto nivel de las columnas

In [10]:
dataset_multindex.index.get_level_values(0)

Index(['AF', 'AS', 'AS', 'AS', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU',
       'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU',
       'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'EU', 'NA', 'NA', 'NA', 'OC',
       'OC', 'OECD', 'SA', 'SA', 'SA'],
      dtype='object', name='Continent')

In [11]:
dataset_multindex.index.get_level_values(1)

Index(['South Africa', 'Israel', 'Japan', 'Korea', 'Austria', 'Belgium',
       'Czech Republic', 'Denmark', 'Estonia', 'Finland', 'France', 'Germany',
       'Greece', 'Hungary', 'Iceland', 'Ireland', 'Italy', 'Latvia',
       'Lithuania', 'Luxembourg', 'Netherlands', 'Norway', 'Poland',
       'Portugal', 'Russia', 'Slovak Republic', 'Slovenia', 'Spain', 'Sweden',
       'Switzerland', 'Turkey', 'United Kingdom', 'Canada', 'Mexico',
       'United States', 'Australia', 'New Zealand', 'OECD - Total', 'Brazil',
       'Chile', 'Colombia'],
      dtype='object', name='Country')

### Acceder a Multi-Índices

> **Ejercicio ✏️**: Seleccionar la fila que contiene a Chile

In [12]:
dataset_multindex

Unnamed: 0_level_0,Unit,Average score,Average score,Average score,Hours,Micrograms per cubic metre,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Ratio,Ratio,US Dollar,US Dollar,US Dollar,Years,Years
Unnamed: 0_level_1,Indicator,Life satisfaction,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Housing expenditure,Labour market insecurity,Long-term unemployment rate,Quality of support network,Self-reported health,Voter turnout,Water quality,Homicide rate,Rooms per person,Household net adjusted disposable income,Household net wealth,Personal earnings,Life expectancy,Years in education
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2
AF,South Africa,4.7,,,14.77,22.0,37.0,73.333333,17.84,43.333333,36.333333,18.0,,16.643333,88.0,,73.0,67.0,14.0,,,,,57.5,
AS,Israel,7.225,2.5,470.0,,21.0,,87.333333,15.273333,69.0,69.966667,,4.2,0.486667,88.5,86.75,72.0,67.0,1.833333,1.2,,,35067.0,82.466667,15.633333
AS,Japan,5.9,1.4,528.8,,14.0,6.4,,,75.0,72.8,22.0,2.22,0.996667,88.75,34.8,53.0,87.0,0.2,1.9,29798.0,305878.0,40863.0,84.066667,16.366667
AS,Korea,5.866667,2.9,520.0,14.583333,28.0,2.5,87.666667,,66.666667,66.666667,15.0,2.302,0.05,78.333333,33.0,77.0,76.0,1.0,1.5,21882.0,285980.0,35191.0,82.366667,17.266667
EU,Austria,7.225,1.3,492.8,14.53,16.0,0.9,85.0,6.59,72.0,80.7,21.0,4.076,1.83,92.0,70.6,80.0,92.0,0.466667,1.6,33541.0,308325.0,50349.0,81.7,17.0
EU,Belgium,7.0,2.0,503.8,15.663333,15.0,1.9,77.0,4.703333,63.333333,70.266667,21.0,4.052,3.533333,92.0,73.6,89.0,83.666667,1.033333,2.2,30364.0,386006.0,49675.0,81.5,19.3
EU,Czech Republic,6.7,1.6,492.2,,20.0,0.7,93.666667,5.496667,73.666667,72.533333,24.0,7.208,1.056667,91.75,60.8,61.0,86.666667,0.5,1.4,21453.0,,25372.0,79.1,17.9
EU,Denmark,7.65,2.0,505.2,15.873333,9.0,0.5,81.0,2.316667,74.0,83.566667,23.0,4.606,1.313333,95.5,72.6,86.0,95.0,0.6,1.9,29606.0,118637.0,51466.0,80.9,19.5
EU,Estonia,5.78,2.7,525.8,14.886667,8.0,7.0,88.666667,2.436667,74.0,69.633333,17.0,4.392,1.916667,91.2,54.4,64.0,84.0,3.166667,1.6,19697.0,159373.0,24336.0,77.766667,17.7
EU,Finland,7.66,2.2,523.6,15.163333,6.0,0.5,88.0,3.816667,70.333333,85.266667,23.0,4.508,2.123333,94.8,70.2,67.0,95.0,1.266667,1.9,29943.0,200827.0,42964.0,81.5,19.833333


In [13]:
dataset_multindex.loc[[('SA', 'Chile')], :]

Unnamed: 0_level_0,Unit,Average score,Average score,Average score,Hours,Micrograms per cubic metre,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Ratio,Ratio,US Dollar,US Dollar,US Dollar,Years,Years
Unnamed: 0_level_1,Indicator,Life satisfaction,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Housing expenditure,Labour market insecurity,Long-term unemployment rate,Quality of support network,Self-reported health,Voter turnout,Water quality,Homicide rate,Rooms per person,Household net adjusted disposable income,Household net wealth,Personal earnings,Life expectancy,Years in education
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2
SA,Chile,6.48,1.3,443.8,,16.0,9.4,65.0,9.316667,62.666667,48.0,18.0,8.168,,84.6,57.0,47.0,71.0,4.2,1.2,,100967.0,25879.0,79.9,17.5


> **Ejercicio ✏️**: Seleccionar las columnas de los indicadores basados en Porcentajes.

In [14]:
dataset_multindex.loc[:, ['Percentage']]

Unnamed: 0_level_0,Unit,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage
Unnamed: 0_level_1,Indicator,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Housing expenditure,Labour market insecurity,Long-term unemployment rate,Quality of support network,Self-reported health,Voter turnout,Water quality
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
AF,South Africa,37.0,73.333333,17.84,43.333333,36.333333,18.0,,16.643333,88.0,,73.0,67.0
AS,Israel,,87.333333,15.273333,69.0,69.966667,,4.2,0.486667,88.5,86.75,72.0,67.0
AS,Japan,6.4,,,75.0,72.8,22.0,2.22,0.996667,88.75,34.8,53.0,87.0
AS,Korea,2.5,87.666667,,66.666667,66.666667,15.0,2.302,0.05,78.333333,33.0,77.0,76.0
EU,Austria,0.9,85.0,6.59,72.0,80.7,21.0,4.076,1.83,92.0,70.6,80.0,92.0
EU,Belgium,1.9,77.0,4.703333,63.333333,70.266667,21.0,4.052,3.533333,92.0,73.6,89.0,83.666667
EU,Czech Republic,0.7,93.666667,5.496667,73.666667,72.533333,24.0,7.208,1.056667,91.75,60.8,61.0,86.666667
EU,Denmark,0.5,81.0,2.316667,74.0,83.566667,23.0,4.606,1.313333,95.5,72.6,86.0,95.0
EU,Estonia,7.0,88.666667,2.436667,74.0,69.633333,17.0,4.392,1.916667,91.2,54.4,64.0,84.0
EU,Finland,0.5,88.0,3.816667,70.333333,85.266667,23.0,4.508,2.123333,94.8,70.2,67.0,95.0


> **Ejercicio ✏️**: Seleccionar la columna que contiene a Life expectancy

In [15]:
dataset_multindex.columns.values

array([('Average score', 'Life satisfaction'),
       ('Average score', 'Stakeholder engagement for developing regulations'),
       ('Average score', 'Student skills'),
       ('Hours', 'Time devoted to leisure and personal care'),
       ('Micrograms per cubic metre', 'Air pollution'),
       ('Percentage', 'Dwellings without basic facilities'),
       ('Percentage', 'Educational attainment'),
       ('Percentage', 'Employees working very long hours'),
       ('Percentage', 'Employment rate'),
       ('Percentage', 'Feeling safe walking alone at night'),
       ('Percentage', 'Housing expenditure'),
       ('Percentage', 'Labour market insecurity'),
       ('Percentage', 'Long-term unemployment rate'),
       ('Percentage', 'Quality of support network'),
       ('Percentage', 'Self-reported health'),
       ('Percentage', 'Voter turnout'), ('Percentage', 'Water quality'),
       ('Ratio', 'Homicide rate'), ('Ratio', 'Rooms per person'),
       ('US Dollar', 'Household net adjusted di

In [16]:
dataset_multindex.loc[:, [('Years', 'Life expectancy')]]

Unnamed: 0_level_0,Unit,Years
Unnamed: 0_level_1,Indicator,Life expectancy
Continent,Country,Unnamed: 2_level_2
AF,South Africa,57.5
AS,Israel,82.466667
AS,Japan,84.066667
AS,Korea,82.366667
EU,Austria,81.7
EU,Belgium,81.5
EU,Czech Republic,79.1
EU,Denmark,80.9
EU,Estonia,77.766667
EU,Finland,81.5


> **Ejercicio ✏️**: Seleccionar la fila que contiene a Chile y la columna que contiene a Life expectancy

In [17]:
dataset_multindex.loc[[("SA", "Chile")], [("Years", "Life expectancy")]]

Unnamed: 0_level_0,Unit,Years
Unnamed: 0_level_1,Indicator,Life expectancy
Continent,Country,Unnamed: 2_level_2
SA,Chile,79.9


> **Pregunta ❓**: ¿Cómo puedo solicitar `Housing expenditure` como `Employment rate` al mismo tiempo?

In [18]:
dataset_multindex.head()

Unnamed: 0_level_0,Unit,Average score,Average score,Average score,Hours,Micrograms per cubic metre,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Percentage,Ratio,Ratio,US Dollar,US Dollar,US Dollar,Years,Years
Unnamed: 0_level_1,Indicator,Life satisfaction,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Housing expenditure,Labour market insecurity,Long-term unemployment rate,Quality of support network,Self-reported health,Voter turnout,Water quality,Homicide rate,Rooms per person,Household net adjusted disposable income,Household net wealth,Personal earnings,Life expectancy,Years in education
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2
AF,South Africa,4.7,,,14.77,22.0,37.0,73.333333,17.84,43.333333,36.333333,18.0,,16.643333,88.0,,73.0,67.0,14.0,,,,,57.5,
AS,Israel,7.225,2.5,470.0,,21.0,,87.333333,15.273333,69.0,69.966667,,4.2,0.486667,88.5,86.75,72.0,67.0,1.833333,1.2,,,35067.0,82.466667,15.633333
AS,Japan,5.9,1.4,528.8,,14.0,6.4,,,75.0,72.8,22.0,2.22,0.996667,88.75,34.8,53.0,87.0,0.2,1.9,29798.0,305878.0,40863.0,84.066667,16.366667
AS,Korea,5.866667,2.9,520.0,14.583333,28.0,2.5,87.666667,,66.666667,66.666667,15.0,2.302,0.05,78.333333,33.0,77.0,76.0,1.0,1.5,21882.0,285980.0,35191.0,82.366667,17.266667
EU,Austria,7.225,1.3,492.8,14.53,16.0,0.9,85.0,6.59,72.0,80.7,21.0,4.076,1.83,92.0,70.6,80.0,92.0,0.466667,1.6,33541.0,308325.0,50349.0,81.7,17.0


In [19]:
dataset_multindex.loc[
    :, [
        ("Percentage", "Housing expenditure"), 
        ("Percentage", "Employment rate")
    ]
]

Unnamed: 0_level_0,Unit,Percentage,Percentage
Unnamed: 0_level_1,Indicator,Housing expenditure,Employment rate
Continent,Country,Unnamed: 2_level_2,Unnamed: 3_level_2
AF,South Africa,18.0,43.333333
AS,Israel,,69.0
AS,Japan,22.0,75.0
AS,Korea,15.0,66.666667
EU,Austria,21.0,72.0
EU,Belgium,21.0,63.333333
EU,Czech Republic,24.0,73.666667
EU,Denmark,23.0,74.0
EU,Estonia,17.0,74.0
EU,Finland,23.0,70.333333


In [20]:
dataset_multindex.loc[
    :, [
        ("Percentage", ["Housing expenditure", "Employment rate"]), 
    ]
]

TypeError: unhashable type: 'list'

> **Pregunta ❓:** ¿Podrá abreviarse?

In [None]:
dataset_multindex.loc[:, [("Percentage", ["Housing expenditure", "Employment rate"])]]

Este caso puede convertirse en un problema cuando sacamos muchas columnas, ya que tendremos que escribir muchas tuplas.

#### Opción: `IndexSlice`

`IndexSlice` soluciona el problema anteriormente mencionado al permitir seleccionar más de un índice/columna por nivel:

In [None]:
idx = pd.IndexSlice
idx

In [None]:
idx = pd.IndexSlice

dataset_multindex.loc[
    :, idx["Percentage", [
        "Employees working very long hours", 
        "Housing expenditure"]]
]

Lo siguiente extiende el ejemplo anterior para seleccionar los paises de Norte y Sudamerica.

In [None]:
dataset_multindex.loc[
    idx[["NA", "SA"]],
    idx["Percentage", ["Employees working very long hours", "Housing expenditure"]],
]

Incluso, puede pedir más de un índice/columna por cada nivel:

In [None]:
dataset_multindex.loc[
    :,
    idx[
        ["Hours", "Percentage"],
        [
            "Time devoted to leisure and personal care",
            "Employees working very long hours",
            "Housing expenditure",
        ],
    ],
]

Que sería lo mismo que indexar usando `:` (es decir, seleccionar todo ese multi-índice)

In [None]:
dataset_multindex.loc[
    idx[: ,['Chile', 'Israel']],
    idx[
        :,
        [
            "Time devoted to leisure and personal care",
            "Employees working very long hours",
            "Housing expenditure",
        ],
    ],
]

### `droplevel`

El método `droplevel` nos permite eliminar un nivel de un multi-índice, tanto para filas como para columnas.
Recibe como parámetros el nivel (partiendo por 0 desde afuera hacia adentro) y el eje (axis): 

In [None]:
dataset_multindex.head()

In [None]:
dataset_multindex.droplevel(0, axis=0).head()

In [None]:
dataset_multindex.droplevel(1, axis=0)

In [None]:
dataset_multindex.droplevel(0, axis=1).head()

Noten que estos métodos generan DataFrames nuevos. Por ende, al ejecutarse deben reemplazar los `DataFrames` originales.

---

##  Fundir / Melt

El proceso inverso al pivoteado:

![Melt](../../recursos/2023-02/pandas-4/melt.png)

En este caso retornaremos a algo similar al formato original del dataset:

In [None]:
bli_df = pd.read_excel("../../recursos/2023-02/pandas-2/dataset.xlsx", header=1, index_col=0)
bli_df.head()
bli_df = bli_df.reset_index()

In [None]:
bli_df.melt(id_vars=["Country"])

Usando su argumento `value_vars` podemos seleccionar solo alguna de las columnas que deseamos operar con `melt`.
De todas formas, este comportamiento también puede ser logrado usando un simple indexador `.loc`

In [None]:
bli_df.melt(id_vars=["Country"], value_vars=["Air pollution", "Water quality"])

In [None]:
# setear opciones para mostrar todas las filas y columnas
# cuidado al ejecutar esto en sus notebooks, se puede quedar pegado el navegador!
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_colwidth", None)

## Strings

### Motivación

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/pets.jpg' alt='Mascotas' width=600/>
</div>

Supongamos que poseemos un dataset generado a partir de [_web scrapping_](https://es.wikipedia.org/wiki/Web_scraping) que contiene el nombre de una mascota más el resumen (_abstract_) de la página asociada a estos en Wikipedia.


In [None]:
mascotas = [
    [
        "Perro",
        "  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si "
        "se lo considera una especie por derecho propio o una subespecie del "
        "lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares"
        " coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un "
        "mamífero carnívoro de la familia de los cánidos, que constituye "
        "una especie del género Canis.8​9​. Posee un oído y un olfato muy "
        "desarrollados, y este último es su principal órgano sensorial.  \n"
        ],
    [
        "Gato",
        "  El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente "
        "gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,"
        "6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es "
        "un mamífero carnívoro de la familia Felidae. Es una subespecie "
        "domesticada por la convivencia con el ser humano.  \n"
    ],
    [
        "Canario",
        "  El canario doméstico (Serinus canaria domestica)3​4​ es una "
        "subespecie desarrollada durante siglos de selección en cautividad "
        "partiendo de ejemplares del canario silvestre o canario salvaje "
        "(Serinus canaria), una especie de ave del orden paseriforme de "
        "la familia de los fringílidos, endémica de las islas Canarias, "
        "Azores y Madeira.5​6​   \n"
    ],
]

df_mascotas = pd.DataFrame(mascotas, columns=["nombre", "resumen"])
df_mascotas

Notemos qué sucede al acceder al resumen del Perro.

In [None]:
resumen_perro = df_mascotas.loc[0, "resumen"]
resumen_perro

> **Pregunta ❓**: ¿Qué representa el símbolo `\n`?

> **Pregunta ❓:** ¿Podemos utilizar directamente el texto tal cuál está, por ejemplo, para hacer un buscador? ¿Qué podemos hacer al respecto?

En muchas ocasiones, los conjuntos de datos que se utilizan en análisis de datos incluyen una columna que contiene texto. Sin embargo, este texto no siempre está listo para ser utilizado directamente, ya que puede presentarse de manera desordenada y con errores. Por esta razón, es de suma importancia aprender a preprocesar el texto antes de utilizarlo en análisis posteriores.


Las `Series` de pandas implementan diversos métodos de procesamiento de string que permiten operar facilmente con estos. Por lo general, estos métodos son una réplica de los métodos originales de la clase built-in `string`, los cuales veremos a continuación:

### Métodos de la Clase String

Python cuenta con una variedad de métodos built-in para procesar strings. Algunos de los métodos más comunes son:

In [None]:
resumen_perro

#### `len`

Devuelve la longitud de una cadena de caracteres

In [None]:
len(resumen_perro)

#### `.lower`

Convierte todos los caracteres de un string a minúsculas.

In [None]:
resumen_perro.lower()

#### `.upper()`

Convierte todos los caracteres de un string a mayúsculas.

In [None]:
resumen_perro.upper()

#### `.title()`

title(): Convierte la primera letra de cada palabra de una cadena en mayúscula.

In [None]:
resumen_perro.title()

#### `.capitalize()`

capitalize(): Convierte la primera letra de una cadena en mayúscula.

In [None]:
resumen_perro.capitalize()

#### `.strip()`

Elimina los espacios en blanco al principio y al final de una cadena.

In [None]:
resumen_perro

In [None]:
resumen_perro.strip()

In [None]:
# method chaining <-
resumen_perro.strip().lower()

#### `.split()`

Divide una cadena en una lista de substrings, utilizando un string (habitualmente `" "`) como separador.

In [None]:
resumen_perro

In [None]:
resumen_perro.split(" ")

In [None]:
resumen_perro

> **Pregunta: ❓**: ¿Cómo podría separar oraciones?

In [None]:
oraciones_divididas = resumen_perro.split(".")
oraciones_divididas

In [None]:
for oracion in oraciones_divididas:
    if len(oracion) > 10:
        print(oracion.strip().capitalize(), '\n')

#### `join("")`

Une una lista de strings en un único string según algún separador (comunmente un espacio `" "`, punto `"."` o salto e linea `"\n"`).

In [None]:
"-".join(oraciones_divididas)

#### `str1 in str2`

Devuelve True si un substring está presente en un string.

In [None]:
resumen_perro

In [None]:
"perro" in resumen_perro

In [None]:
"gato" in resumen_perro

#### `.replace()`

Reemplaza un substring con otro en una string.

In [None]:
# por ejemplo, eliminar la palabra perro.

resumen_perro.replace("perro", "can")

In [None]:
# notar que es sensible a mayúsculas.
resumen_perro.replace("Perro", "")

In [None]:
resumen_perro.replace("perro", "gato")

In [None]:
resumen_perro.replace("\u200b", "")

### Strings en pandas

La mayoría de los métodos de procesamiento de strings que se vieron anteriormente pueden ser ejecutados a través del atributo `.str` en las series de Pandas.

La idea detrás del uso de los métodos de .str es que el preprocesamiento se haga de manera ordenada y eficiente. Al utilizar estos métodos, los usuarios pueden aplicar una variedad de transformaciones a sus datos de texto en una sola línea de código, lo que facilita el procesamiento de grandes conjuntos de datos de texto.

In [None]:
df_mascotas

In [None]:
df_mascotas.loc[:, "resumen"]

#### Len, Lower, Upper, Title y Capitalize

In [None]:
df_mascotas.loc[:, "resumen"].str

In [None]:
df_mascotas.loc[:, "resumen"].str.len()

In [None]:
df_mascotas.loc[:, "resumen"].str.lower()

In [None]:
df_mascotas.loc[:, "resumen"].str.upper()

In [None]:
df_mascotas.loc[:, "resumen"].str.title()

In [None]:
df_mascotas.loc[:, "resumen"].str.capitalize()

#### Contains, Split y Join


> **Nota: 🗒️**: `.contains` reemplaza al operador `.in`

In [None]:
df_mascotas.loc[:, "resumen"].str.contains("perro")

In [None]:
df_mascotas.loc[:, "resumen"].str.contains("gato")

In [None]:
df_mascotas.loc[:, "resumen"].str.split(" ")

In [None]:
df_mascotas.loc[:, "resumen"].str.split(" ").str.join("|")

#### Replace

In [None]:
df_mascotas.loc[:, "resumen"].values

In [None]:
s1 = (
    df_mascotas.loc[:, "resumen"]
    .str.replace("(", "", regex=False)
    .str.replace(")", "", regex=False)
    .str.replace("1", "", regex=False)
    .str.replace("2", "", regex=False)
)

s1

> **Pregunta ❓:** ¿Qué indica el parámetro `regex`?

#### Expresiones Regulares

Las expresiones regulares son una herramienta de búsqueda y manipulación de texto que permiten encontrar patrones específicos en una cadena de caracteres.

Una expresión regular es una secuencia de caracteres que define un patrón de búsqueda. Los patrones pueden incluir caracteres específicos, combinaciones de caracteres, grupos de caracteres y operadores especiales que permiten hacer coincidir patrones complejos en el texto.

Aunque pueden parecer complicadas al principio, las expresiones regulares son una herramienta muy poderosa ya que pueden ser aplicadas en una amplia variedad de tareas de procesamiento de texto.


- Tutorial de regex: https://www.programiz.com/python-programming/regex
- Playground para probar regex online: https://regex101.com/

##### Sintaxis y reglas básicas

1. Usa caracteres literales para representar las letras y números que deseas buscar. Por ejemplo, la expresión regular `abc` buscará la cadena de texto `"abc"`.
2. Utiliza caracteres especiales para representar patrones de búsqueda más complejos. Por ejemplo, el carácter especial `"."` representa cualquier carácter, y el carácter especial `"^"` representa el inicio de una línea.
3. Utiliza corchetes para definir un conjunto de caracteres que deseas buscar. Por ejemplo, [abc] buscará cualquiera de los caracteres `"a"`, `"b"` o `"c"`.
4. Utiliza caracteres especiales como `*` o `+` para representar repeticiones de caracteres o patrones. Por ejemplo, `a*` buscará cero o más repeticiones de la letra `"a"` como `""`, `"a"`, `"aa"`, etc...; `a+` en cambio aceptará `"a"`, `"aa"`, etc...
5. Utiliza paréntesis para agrupar patrones y aplicar operadores a grupos de caracteres. Por ejemplo, `(abc)+` buscará una o más repeticiones de la cadena `"abc"`.
6. Utiliza el carácter especial `\` para escapar caracteres especiales (o sea, para tratar a *, +, [, ], etc... como texto) y tratarlos como caracteres literales. Por ejemplo, `\.com` buscará el texto `".com"`.
7. Utiliza el símbolo `^` para indicar que lo que se busca está al inicio de la línea, y el símbolo `$` para indica que lo que se busca el final de la línea. 
8. Uitiliza `\s+` para encontrar todos los espacios, `[0-9]` para buscar los dígitos (`[0-9]+` para uno o más de un dígito) y `[a-zA-Z]` para encontrar letras (`[a-zA-Z]+` para uno o más de una letra).

In [None]:
df_mascotas.loc[:, "resumen"]

In [None]:
(
    df_mascotas.loc[:, "resumen"]
    .str.strip()
    .str.replace("[\n\u200b0-9,;()\.]", "", regex=True)
    .str.lower()
    .str.split(" ")
).values

In [None]:
# sintaxis regex

# en este caso se eliminan todas las comas
df_mascotas.loc[:, "resumen"].str.replace(",", "", regex=True).values

In [None]:
# en este caso se eliminan todas las comas y los punto y coma.
# agregamos más de un caracter por eliminar usando []
df_mascotas.loc[:, "resumen"].str.replace("[,;]", "", regex=True).values

In [None]:
# en este caso se eliminan todas las comas y los punto y coma y los puntos
# notar que el punto hay que escribirlo con un slash inverso \: \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.]", "", regex=True).values

In [None]:
# mismo caso para los paréntesis ( y ) y corchetes [, ]: hay que agregar \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

In [None]:
# \d indica que se eliminarán todos todos los dígitos

df_mascotas.loc[:, "resumen"].str.replace("\d", "", regex=True)

In [None]:
# todo junto:
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

> **Pregunta ❓**: ¿Según las reglas que vimos anteriormente, habría una forma más rápida de limpiar un string?

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("[^A-Za-z]+", " ", regex=True).values

In [None]:
df_mascotas.loc[:, "resumen"].str.replace("\b[^\W]+\b", " ", regex=True).values

 > Nota: 

- `\W` para buscar todas las palabras que no contienen caracteres que no sean letras ni números, incluyendo letras con acento. 
- `\b` se utiliza para indicar que la expresión regular debe buscar palabras completas, es decir, que no se debe incluir ninguna letra o número antes o después de la palabra.

### Paréntesis: Método `apply`

El método apply de Pandas se utiliza para aplicar una función a una columna o fila de un DataFrame. La función que se va a aplicar puede ser una función integrada de Python, una función definida por el usuario o una función lambda.

In [None]:
df_mascotas.loc[:, "resumen"]

In [None]:
def is_gato_in(value):
    if "gato" in value:
        return True
    else:
        return False

df_mascotas.loc[:, "resumen"].apply(is_gato_in)

In [None]:
def seleccionar_10_caracteres(value):
    return value[0:10]

df_mascotas.loc[:, "resumen"].apply(seleccionar_10_caracteres)

In [None]:
def limpiar(value):
    return value.replace(",", "").replace(";", "").lower()

df_mascotas.loc[:, "resumen"].apply(limpiar)

#### `strip_accents_ascii`

`strip_accents_ascii` se utiliza para eliminar los acentos y diacríticos de una cadena, convirtiendo los caracteres Unicode que representan los acentos y diacríticos en caracteres ASCII equivalentes.

In [None]:
import unicodedata

def strip_accents_ascii(value):
    nkfd_form = unicodedata.normalize("NFKD", value)
    return nkfd_form.encode("ASCII", "ignore").decode("ASCII")


In [None]:
strip_accents_ascii('doméstico')

In [None]:
df_mascotas.loc[:, "resumen"]

In [None]:
df_mascotas.loc[:, "resumen"].apply(strip_accents_ascii)

#### Uso de `.apply` sobre DataFrames

`apply` usada sobre un Dataframe permite ejecutar una función sobre las filas o columnas, lo que se indica a través del parámetro `axis`.

In [None]:
def unir_nombre_y_descripcion(row):
    return row["nombre"] + " - " + row["resumen"]
    
# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_nombre_y_descripcion, axis=1)

In [None]:
def unir_filas(col):
    return '|'.join(col)
    
# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_filas, axis=0)

#### Preprocesamiento Completo



In [None]:
df_mascotas.loc[:, "resumen"].values

In [None]:
df_mascotas_procesado = (
    df_mascotas.loc[:, "resumen"]
    .apply(strip_accents_ascii)
    .str.replace(r"[,;\.\(\)\[\]\d*]", "", regex=True)
    .str.replace(r"\s+", " ", regex=True) # en este caso se reemplazan todos los espacios por solo un espacio.
    .str.strip()
    .str.lower()
)

df_mascotas_procesado.values

---

## Fechas 

### Dataset de Temperaturas Globales

![wbg_climate](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/wbg_climate.png)


https://climateknowledgeportal.worldbank.org/download-data

In [None]:
df_temp = pd.read_csv("./temperature.csv")
df_temp.head(5)

### Motivación

Las fechas y horarios son por lo general parte íntegra de los datos en muchas aplicaciones. Algunos ejemplos de uso de fechas y horarios en aplicaciones son el análisis de datos de ventas a lo largo del tiempo, el seguimiento de la evolución del clima, el análisis de la actividad del usuario en una plataforma digital, entre otros.

> **Pregunta ❓**: ¿Qué aplicación particular podríamos darle al manejar los datetimes del clima? 

### Módulo `Datetime`

El módulo datetime en Python es una librería estándar (built-in) que proporciona clases y métodos para trabajar con fechas y horas los cuales simplifican la manipulación y cálculos ellos.

In [None]:
import datetime

#### Date

Objeto que almacena día, mes y año.

In [None]:
date_object = datetime.date.today()
print(date_object)

In [None]:
date_object.day

In [None]:
date_object.month

In [None]:
date_object.year

#### Datetime

Almacena segundos, minutos, hora, día, mes y año. También puede contener timezone.

In [None]:
datetime_object = datetime.datetime.now()
print(datetime_object)

#### Instanciar nuevos Date y Datetimes

In [None]:
d = datetime.date(2021, 9, 9)
print(d)

In [None]:
print("Año:", d.year)
print("Mes:", d.month)
print("Día:", d.day)

In [None]:
d = datetime.datetime(
    year=2021, 
    month=4, 
    day=19, 
    hour=10, 
    minute=59, 
    second=55
)
print(d)

In [None]:
print("Hora:", d.hour)
print("Minuto:", d.minute)
print("Segundo:", d.second)
print("Microsegundo:", d.microsecond)

Obviamente, estos objetos cuentan con las restricciones pertinentes 

In [None]:
datetime.datetime(-1, 4, 19, 10, 59, 55)

In [None]:
datetime.datetime(9999, 4, 19, 10, 59, 55)

Relacionado: https://es.wikipedia.org/wiki/Problema_del_a%C3%B1o_2000


El problema del año 2000, fue un bug o error de software causado por la costumbre que habían adoptado los programadores de omitir la centuria en el año para el almacenamiento de fechas (generalmente para economizar memoria), asumiendo que el software solo funcionaría durante los años cuyos números comenzaran con 19XX


![Antes](https://www.sopitas.com/wp-content/uploads/2016/04/ss.gif)


In [None]:
datetime.datetime(999999, 4, 19, 10, 59, 55)

In [None]:
datetime.datetime(2020, 4, 19, 10, 60, 55)

¿Y los años bisiestos?

In [None]:
datetime.datetime(2020, 2, 29)

In [None]:
datetime.datetime(2021, 2, 29)

##### Desde timestamp

`A Unix timestamp is the number of seconds between a particular date and January 1, 1970 at UTC.`

In [None]:
timestamp = datetime.date.fromtimestamp(1326244364)
print("Date =", timestamp)

> **Pregunta ❓**: ¿Podemos sumar o restar fechas?

In [None]:
delta = datetime.datetime(1, 1, 1)
delta

In [None]:
d 

In [None]:
datetime.datetime.now()

In [None]:
datetime.datetime.now() + delta

#### TimeDelta

Permide sumar semanas, días, horas, etc... a objetos `date` y `datetime`.

In [None]:
d = datetime.datetime.now()
d

In [None]:
from datetime import timedelta

t1 = timedelta(weeks=2)
t1

In [None]:
d + t1

In [None]:
d - t1

¿Y tiempos negativos?

In [None]:
t2 = timedelta(days=-1)

In [None]:
d

In [None]:
d + t2

In [None]:
d - t2

¿Cambios de mes?

In [None]:
t3 = timedelta(days=1)

In [None]:
datetime.date(2021, 2, 28) + t3

In [None]:
# notar que también funciona para años bisiestos
datetime.date(2020, 2, 28) + t3 

#### Formatear a string con `.strftime`

Permite convertir un objeto datetime a una cadena de caracteres que siga un patrón específico para representar la fecha y la hora.

In [None]:
d

In [None]:
s1 = d.strftime("%A %d/%m/%Y, %H:%M:%S")
# dd/mm/YY H:M:S format
s1

In [None]:
s1 = d.strftime("%m/%d/%Y, %H:%M:%S")
# dd/mm/YY H:M:S format
s1

In [None]:
s1 = d.strftime("%d/%m/%Y")
# dd/mm/YY H:M:S format
s1

In [None]:
s2 = d.strftime("%A %d %B %Y, %X")
# dd/mm/YY H:M:S format
s2

Referencia completa de formateo de fechas:

https://www.programiz.com/python-programming/datetime/strftime

---



###  Datos temporales en Pandas

Pandas implementa su propio sistema de datetimes.
`pd.to_datetimes` nos permite convertir una `Serie` o un `DataFrame` en una `Serie` de datetimes.

In [None]:
df_temp.head(3)

In [None]:
dates = df_temp.loc[:, ["Year", "Month"]]
dates

In [None]:
dates.loc[:, "Day"] = 1
dates

In [None]:
dates = dates.astype(str)
concat_dates = (
    dates.loc[:, 'Year']
    + ' '
    +  dates.loc[:, 'Month'] 
    + ' '
    + dates.loc[:, 'Day']
)

concat_dates

In [None]:
parsed_dates = pd.to_datetime(concat_dates)
parsed_dates

In [None]:
# aquí le dimos el formato con el cuál queríamos leer la fecha.

parsed_dates_2 = pd.to_datetime(concat_dates, format="%Y %b %d")

In [None]:
pd.to_datetime(concat_dates, format="%Y %b %d") > "2016 01 01"

In [None]:
df_temp.loc[:, 'dates'] = parsed_dates

In [None]:
df_temp.info()

#### Valores Inválidos

Puede ocurrir que tengamos algún dato inválido que no podamos transformar a `datetime`.

`pd.to_datetime` ofrece el siguiente parámetro para manejar estos problemas:

`errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’`

- If `raise`, then invalid parsing will raise an exception.

- If `coerce`, then invalid parsing will be set as NaT.

- If `ignore`, then invalid parsing will return the input.


**Nota:** NaT = Not a Time


In [None]:
pd.to_datetime(["2009/07/31", "asd"], errors="coerce")

#### Comparaciones y consultas

Se puede especificar directamente filtros booleanos usando datetimes como también strings:

In [None]:
df_temp.loc[:, "dates"] 

In [None]:
df_temp.loc[:, "dates"] > datetime.datetime(2010, 1, 1)

In [None]:
(df_temp.loc[:, "dates"] > "2010-1-1") & (...)

#### Indexado

Podemos fijar las fechas como índices y luego indexar por rangos de estas

In [None]:
temperaturas_por_fecha = df_temp.set_index("dates")
temperaturas_por_fecha

In [None]:
# Rango 1995-1-1 al 199-12-1
temperaturas_por_fecha.loc["1995-1-1":"1999-12-1"]

In [None]:
temperaturas_por_fecha.loc["1999-11-1":"1999-12-1"]

#### Timedeltas

`pd.Timedelta` permite utilizar una interfaz similar a los `datetime.timedelta` para ejecutar cálculos sobre las fechas:

`weeks, days, hours, minutes, seconds, milliseconds, microseconds, nanoseconds`

In [None]:
ptd1 = pd.Timedelta(weeks=2)
ptd1

In [None]:
df_temp.loc[:, "dates"] + ptd1

Y podemos también hacer Broadcasting con `datetime.timedeltas`

In [None]:
df_temp.loc[:, "dates"] + datetime.timedelta(days=-1)

---

##  Categorías

Una variable categórica es un tipo de dato que puede tomar un número limitado (y usualmente fijo) de posibles valores.
Ejemplos de esto: Género, clase social, tipo de sangre, etc...

En general, guardar los datos como categóricos es mucho más eficiente que guardarlos como string. Según la referencia de pandas:

> The memory usage of a Categorical is proportional to the number of categories plus the length of the data. In contrast, an object dtype is a constant times the length of the data.

Como ejemplo, usaremos los continentes a los que pertenece cada país:

In [None]:
countries = pd.read_csv(
    "https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/country-and-continent.csv"
)
countries = countries.loc[:, ["Continent_Name", "Country_Name"]]
countries

Declaramos una variable como categórica transformando la serie a `category` con `.astype("category")`:

In [None]:
countries["Continent_Name"]

In [None]:
countries["Continent_Name"] = countries.loc[:, "Continent_Name"].astype("category")
countries["Continent_Name"]

Podemos acceder a las categorías con:

In [None]:
countries["Continent_Name"].cat.categories

### Operaciones con categorías

Podemos renombrar categorías usando el método `rename_categories`:

In [None]:
# renombrar en español
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    [
        "Africa",
        "Antarctica",
        "Asia",
        "Europa",
        "América del Norte",
        "Oceania",
        "América del Sur",
    ]
)

countries["Continent_Name"]

In [None]:
countries.sample(10)

`rename_categories` también acepta diccionarios como entrada. La idea es que el diccionario vincule los nombres antiguos con los nuevos:

In [None]:
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    {
        "Europe": "Europa",
    }
)

In [None]:
countries

Se pueden agregar categorías

In [None]:
countries["Continent_Name"].cat.add_categories(["Atlantida"])

Como también eliminar las no usadas:

In [None]:
# Remover las no usadas
countries["Continent_Name"].cat.remove_unused_categories()

O incluso, eliminar una categoría completa. Noten que esto transforma valores de esa categoría a `NaN`.

In [None]:
# Como también remover una categoría completa.
countries["Continent_Name"].cat.remove_categories(["Europa"])

### Nota sobre memoria

Como habíamos dicho, es mucho más eficiente guardar variables categóricas que strings.
Podemos ver esto en el siguiente ejemplo:

#### Usando Strings

In [None]:
# cuidado con este experimento, ocupa mucha memoria!
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado

In [None]:
# strings no tienen .cat
df_pesado["var"].cat

In [None]:
# observen la cantidad de memoria.
df_pesado.info()

#### Usando Categorías

In [None]:
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado["var"] = df_pesado["var"].astype("category")
df_pesado

In [None]:
df_pesado["var"].cat

In [None]:
df_pesado.info()

### Un pequeño merge con los datos anteriores

Notar que en esta versión se especificó sobre que variables hacer el merge en ambos datasets.

In [None]:
temp_agg = df_temp.groupby("Country").agg({"Temperature": ["mean", "std"]})
temp_agg

In [None]:
countries

In [None]:
temp_agg.columns = temp_agg.columns.droplevel()
temp_agg = temp_agg.reset_index()
temp_agg.columns = ["Country", "Mean temperature", "Std temperature"]
temp_agg

merged_df = pd.merge(
    temp_agg,
    countries,
    how="left",
    left_on="Country",
    right_on="Country_Name",
)

merged_df

---

## Ordinales

Una variable ordinal es un tipo de variable categórica que representa una característica o atributo que se puede ordenar o clasificar en diferentes niveles o categorías que tienen un orden predefinido.


Por ejemplo, hagamos una clasificación muy simple del clima a partir de la temperatura media. Para esto, calculemos cuartiles:

> Nota: Los elementos meteorológicos a tomar en cuenta para definir un clima son la temperatura, la presión, el viento, la humedad y la precipitación. Referencias: https://es.wikipedia.org/wiki/Clima

In [None]:
mean_temp = merged_df["Mean temperature"]
mean_temp

In [None]:
mean_temp.describe()

In [None]:
clima_ordinal = pd.qcut(
    mean_temp, 5, labels=["Polar", "Frio", "Templado", "Calido", "Muy Calido"]
)
clima_ordinal

#### Operaciones sobre Series Categóricas con Orden

In [None]:
clima_ordinal.value_counts()

In [None]:
clima_ordinal.min()

In [None]:
clima_ordinal.max()

In [None]:
clima_ordinal.mode()

####  Ordenar y Filtrar usando Ordinales

In [None]:
merged_df["Temp Quartile"] = clima_ordinal
merged_df.head(3)

In [None]:
merged_df.info()

In [None]:
merged_df = merged_df.sort_values(["Temp Quartile", "Mean temperature"])
merged_df

#### Nota sobre Merge con id repetidos

> Pregunta: ¿Qué sucede si hacemos un merge de una fila con muchas otras con igual identificador?

In [None]:
merged_df["Temp Quartile"].cat.categories

In [None]:
mask = merged_df["Temp Quartile"] < "Frio"
mask

In [None]:
merged_df[mask]

## Anexo: Cómo Combinar dos Filtros/Máscaras Booleanas

Se puede usar las operaciones `|` (or) y `&` and para combinar dos máscaras.

- `|` simboliza un ó lógico.
- `&` simboliza un y lógico.

In [None]:
mask_2 = (merged_df["Temp Quartile"] < "Frio") | (
    merged_df["Temp Quartile"] == "Templado"
)
mask_2

In [None]:
merged_df[mask_2]