In [1]:
import pandas as pd
import numpy as np

In [2]:
data = ['peter', 'Paul', None , 'MARY', 'gUIDO']       ## Tupla
nombres = pd.Series(data)                           ## Creamos el DataFrame

In [3]:
nombres.str.capitalize()        ## Pone las mayúsculas omitiendo el elemento nulo

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

In [4]:
## Veamos cuántos nulos hay

nombres.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [5]:
## Hagamos un DataFrame

nombres_dt = pd.DataFrame({"nombre":['peter', 'Paul', 6.9, 'MARY', 'gUIDO'],"nivel":['n1','n1','n4',5,'n7']})
nombres_dt

Unnamed: 0,nombre,nivel
0,peter,n1
1,Paul,n1
2,6.9,n4
3,MARY,5
4,gUIDO,n7


In [6]:
## Veamos cómo funcionan algunos métodos de manejo de cadenas

nombres_dt.nivel.str.capitalize()  ## Cambia a mayúscula la primera letra de la palabra

0     N1
1     N1
2     N4
3    NaN
4     N7
Name: nivel, dtype: object

In [7]:
## Cambia a minúscula todas las letras

nombres_dt.nombre.str.lower()

0    peter
1     paul
2      NaN
3     mary
4    guido
Name: nombre, dtype: object

In [8]:
nombres_dt.nombre.str.len()  ## Vemos el tamaño de cada cadena

0    5.0
1    4.0
2    NaN
3    4.0
4    5.0
Name: nombre, dtype: float64

In [9]:
## Veamos si las cadenas contienen algún carácter específico

nombres_dt.nivel.str.contains("N")       ## distingue mayúsculas y minúsculas

0    False
1    False
2    False
3      NaN
4    False
Name: nivel, dtype: object

In [10]:
## Hagamos otra Serie

monte = pd.Series([' Graham Chapman ', ' John Cleese', 'Terry Gilliam ', 'Eric Idle', 'Terry Jones', 'Michael Palin'])
monte

0     Graham Chapman 
1         John Cleese
2      Terry Gilliam 
3           Eric Idle
4         Terry Jones
5       Michael Palin
dtype: object

In [11]:
## Separemos cada una de las palabras

monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

In [12]:
(monte.str.split())[4]

['Terry', 'Jones']

In [13]:
monte.str.split().str.get(-1)  ## Muestra sólo los apellidos

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

In [14]:
monte.str.split().str.get(0)  ## Muestra sólo los nombres

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

In [15]:
## Variables ordinales: codificación de enteros

## Importamos el archivo

df=pd.read_csv('https://raw.githubusercontent.com/diplomado-bigdata-machinelearning-udea/Curso1/master/s04/adult.csv') 
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
0,2,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,1,0,2,United-States,<=50K
1,3,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,0,United-States,<=50K
2,2,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,2,United-States,<=50K
3,3,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,2,United-States,<=50K
4,1,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,2,Cuba,<=50K


In [16]:
df.shape

(48842, 15)

In [17]:
## La codificación de enteros consiste en asignar valores numéricos a las variables categóricas
## En nuestro DataFrame esto ya está hecho en las columnas education y education-num

df[["education", "education-num"]].drop_duplicates().sort_values(by="education-num") ## eliminamos los datos =


Unnamed: 0,education,education-num
224,Preschool,1
160,1st-4th,2
56,5th-6th,3
15,7th-8th,4
6,9th,5
77,10th,6
3,11th,7
415,12th,8
2,HS-grad,9
10,Some-college,10


In [26]:
## Veamos los datos para class

df['class'].unique()

array(['<=50K', '>50K'], dtype=object)

In [33]:
## En este caso podemos hacer un cambio en el que <=50K sea 1 y >50K sea igual a 2, para ello usamos la función map

df['class-num'] = df['class'].map({'<=50K':1 , '>50K':2})
df[['class', 'class-num']].iloc[13:18]

Unnamed: 0,class,class-num
13,<=50K,1
14,>50K,2
15,<=50K,1
16,<=50K,1
17,<=50K,1


In [34]:
## Veamos ahora cómo son los datos de workclass

df['workclass'].unique()

array(['State-gov', 'Self-emp-not-inc', 'Private', 'Federal-gov',
       'Local-gov', nan, 'Self-emp-inc', 'Without-pay', 'Never-worked'],
      dtype=object)

In [36]:
## Podemos cambiar el tipo de dato a category para luego hacer una codificación entera, así

df['workclass'] = df['workclass'].astype('category')  ## hacemos el cambio a category

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   age             48842 non-null  int64   
 1   workclass       46043 non-null  category
 2   fnlwgt          48842 non-null  int64   
 3   education       48842 non-null  object  
 4   education-num   48842 non-null  int64   
 5   marital-status  48842 non-null  object  
 6   occupation      46033 non-null  object  
 7   relationship    48842 non-null  object  
 8   race            48842 non-null  object  
 9   sex             48842 non-null  object  
 10  capitalgain     48842 non-null  int64   
 11  capitalloss     48842 non-null  int64   
 12  hoursperweek    48842 non-null  int64   
 13  native-country  47985 non-null  object  
 14  class           48842 non-null  object  
 15  class-num       48842 non-null  int64   
dtypes: category(1), int64(7), object(8)
memory usage: 5.6+ MB


In [39]:
df["workclass_code"] = df["workclass"].cat.codes  ## agregamos una columna con la codificación entera

In [40]:
df[['workclass', 'workclass_code']].head()

Unnamed: 0,workclass,workclass_code
0,State-gov,6
1,Self-emp-not-inc,5
2,Private,3
3,Private,3
4,Private,3


In [41]:
## Veamos cómo quedó la codificación

df[['workclass','workclass_code']].drop_duplicates().sort_values(by='workclass_code')

Unnamed: 0,workclass,workclass_code
27,,-1
22,Federal-gov,0
25,Local-gov,1
5361,Never-worked,2
2,Private,3
54,Self-emp-inc,4
1,Self-emp-not-inc,5
0,State-gov,6
1901,Without-pay,7


In [42]:
## Variables nominales: codificación one-hot
## La condición one-hot nos sirve para cuando tenemos sólo dos valores diferentes
## Veamos los valores de sex

df['sex'].unique()

array(['Male', 'Female'], dtype=object)

In [46]:
## Como vemos, podemos separar los valores en dos

pd.get_dummies(df.sex)

Unnamed: 0,Female,Male
0,0,1
1,0,1
2,0,1
3,0,1
4,1,0
...,...,...
48837,1,0
48838,0,1
48839,0,1
48840,0,1


In [47]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class,class-num,workclass_code
0,2,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,1,0,2,United-States,<=50K,1,6
1,3,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,0,United-States,<=50K,1,5
2,2,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,2,United-States,<=50K,1,3
3,3,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,2,United-States,<=50K,1,3
4,1,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,2,Cuba,<=50K,1,3
