#Práctica 2: Preprocesamiento de datos

1. Importar librerias
2. Leer/seleccionar/renombrar datos
3. Preprocesamiento

##1. Importar librerias

In [1]:
import numpy as np # procesamiento numérico
import pandas as pd # lectura de datos
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder  #para transformación de los datos

##2. Leer/seleccionar/renombrar datos

In [2]:
#Leer datos
df = pd.read_csv('surveys.csv')
df.head()

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,


In [3]:
# Seleccionar y renombrar columnas
df = df[['month', 'day', 'year', 'species_id', 'sex', 'hindfoot_length', 'weight']];

#renombrar
df.columns = ['mes', 'dia', 'año', 'especie', 'sexo', 'longitud_pie', 'peso'];

df.head()

Unnamed: 0,mes,dia,año,especie,sexo,longitud_pie,peso
0,7,16,1977,NL,M,32.0,
1,7,16,1977,NL,M,33.0,
2,7,16,1977,DM,F,37.0,
3,7,16,1977,DM,M,36.0,
4,7,16,1977,DM,M,35.0,


##3. Preprocesamiento

In [4]:
# Consultar si hay datos perdidos en cada columna

df.isnull().any()

mes             False
dia             False
año             False
especie          True
sexo             True
longitud_pie     True
peso             True
dtype: bool

In [5]:
df.isnull().sum() #para consultar total de datos perdidos por columna

mes                0
dia                0
año                0
especie          763
sexo            2511
longitud_pie    4111
peso            3266
dtype: int64

In [6]:
df.shape

(35549, 7)

###3.1 Eliminar todos los registros perdidos

In [7]:
df1 = df.dropna(axis=0)
df1.head()

Unnamed: 0,mes,dia,año,especie,sexo,longitud_pie,peso
62,8,19,1977,DM,M,35.0,40.0
63,8,19,1977,DM,M,37.0,48.0
64,8,19,1977,DM,F,34.0,29.0
65,8,19,1977,DM,F,35.0,46.0
66,8,19,1977,DM,M,35.0,36.0


In [8]:
df1.shape

(30676, 7)

###3.2 Eliminar registros pérdidos sobre una columna

In [9]:
df2 = df.dropna(subset = ['longitud_pie'], axis=0)

df2.isnull().sum()

mes               0
dia               0
año               0
especie           0
sexo             68
longitud_pie      0
peso            700
dtype: int64

###3.3 Eliminar columna completa

Esto puede hacerse con el comando: df.dropna(axis=1), sin embargo se puede condicionar a que sólo se haga si los registros perdidos en la columna superan la mitad (50%) usando thresh=half_count, donde half_count=len(df)/2

In [10]:
df3 = df.dropna(axis = 1)

df3.shape

(35549, 3)

###3.4 Reemplazar registros perdidos con el valor medio

Puede usarse para reemplazar por promedio (mean), mediana (median), moda (mode), u otro valor cosntante como cero, u otro.

In [11]:
PromPeso = df['peso'].mean()
print (PromPeso)

42.672428212991356


In [12]:
df4 = df['peso'].replace(np.nan, PromPeso)
df4.head

<bound method NDFrame.head of 0        42.672428
1        42.672428
2        42.672428
3        42.672428
4        42.672428
           ...    
35544    42.672428
35545    42.672428
35546    14.000000
35547    51.000000
35548    42.672428
Name: peso, Length: 35549, dtype: float64>

###3.5 Reemplazar registros perdidos en columnas categóricas

In [13]:
ModaSexo = df['sexo'].mode() #Se calcula el valor que mas se repite en la columna sexo
print (ModaSexo)

0    M
dtype: object


In [14]:
df5 = df['sexo'].fillna("M", inplace=True) #se reemplazan registros perdidos

df.head

<bound method NDFrame.head of        mes  dia   año especie sexo  longitud_pie  peso
0        7   16  1977      NL    M          32.0   NaN
1        7   16  1977      NL    M          33.0   NaN
2        7   16  1977      DM    F          37.0   NaN
3        7   16  1977      DM    M          36.0   NaN
4        7   16  1977      DM    M          35.0   NaN
...    ...  ...   ...     ...  ...           ...   ...
35544   12   31  2002      AH    M           NaN   NaN
35545   12   31  2002      AH    M           NaN   NaN
35546   12   31  2002      RM    F          15.0  14.0
35547   12   31  2002      DO    M          36.0  51.0
35548   12   31  2002     NaN    M           NaN   NaN

[35549 rows x 7 columns]>

###3.6 Transformar variables categóricas a numéricas

In [15]:
df.isnull().sum()

mes                0
dia                0
año                0
especie          763
sexo               0
longitud_pie    4111
peso            3266
dtype: int64

In [17]:
encoder = LabelEncoder()
df1['sexo'] = encoder.fit_transform(df1['sexo'])
df1['especie'] = encoder.fit_transform(df1['especie'])
df1.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,mes,dia,año,especie,sexo,longitud_pie,peso
62,8,19,1977,1,1,35.0,40.0
63,8,19,1977,1,1,37.0,48.0
64,8,19,1977,1,0,34.0,29.0
65,8,19,1977,1,0,35.0,46.0
66,8,19,1977,1,1,35.0,36.0
