In [1]:
# Imports
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# Obtener los datos en formato csv y convertirlos a pandas DataFrame
url = 'https://raw.githubusercontent.com/kfern/jupyter/next/covid19-es-and/covid19-es-and.csv'
df = pd.read_csv(url, thousands='.', parse_dates=['Fecha'], dayfirst=True)

In [3]:
df.tail()

Unnamed: 0,Provincia,Fecha,variable,value
2740,Huelva,2020-06-13,Curados,477
2741,Jaén,2020-06-13,Curados,1668
2742,Málaga,2020-06-13,Curados,3104
2743,Sevilla,2020-06-13,Curados,2839
2744,Total,2020-06-13,Curados,14606


In [4]:
# Obtener la lista de elementos de la categoría
c_provincia = pd.Categorical(df['Provincia'].unique())

In [5]:
# Convertir la columna a tipo category
df['Provincia'] = pd.Categorical(df['Provincia'], c_provincia)

In [6]:
print('Por defecto muestra los datos combinados')
print(df['Provincia'].tail())

Por defecto muestra los datos combinados
2740     Huelva
2741       Jaén
2742     Málaga
2743    Sevilla
2744      Total
Name: Provincia, dtype: category
Categories (9, object): [Almería, Cádiz, Córdoba, Granada, ..., Jaén, Málaga, Sevilla, Total]


In [7]:
print('Se pueden usar sólo los códigos, sin combinar')
print(df['Provincia'].cat.codes.tail())

Se pueden usar sólo los códigos, sin combinar
2740    4
2741    5
2742    6
2743    7
2744    8
dtype: int8


In [8]:
print('Se asigna una categoría por defecto si la categoría no existe')
data = ['b', 'a', 'b', 'c', 'd', 'e']
cats = ['otra', 'b', 'c', 'd']
s = pd.Series(pd.Categorical(data, categories=cats, ordered=False).fillna('otra'))
s

Se asigna una categoría por defecto si la categoría no existe


0       b
1    otra
2       b
3       c
4       d
5    otra
dtype: category
Categories (4, object): [otra, b, c, d]

In [9]:
print('80/20')
data = ['b', 'a', 'b', 'c', 'd', 'e']
cats = pd.Series(data).value_counts(normalize=True, sort=True, ascending=False).cumsum()
cats = cats[cats < .8]
cats['otras'] = 1
new_data = pd.Series(pd.Categorical(data, categories=cats.index.values, ordered=False)).fillna('otras')
new_data

80/20


0        b
1        a
2        b
3    otras
4    otras
5        e
dtype: category
Categories (4, object): [b, e, a, otras]