# DROPPING MISSING VALUES
Se pueden borrar las filas con datos faltantes usando el método `dropna`, el cual está usando ciertos argumentos por default:
* `axis='index'`: Este argumento le dice a Pandas qué valores quiero eliminar del dataframe ante datos faltantes, es decir, borrar filas o columnas
* `how='any'`: Es el criterio que usa para borrar una fila o columna. En este caso, borra las filas que contengan algún valor faltante
    - Se puede usar `'all'` como valor del argumento, de forma que se borren las filas o columnas que contengan todos sus valores como faltantes

In [1]:
import pandas as pd
import numpy as np

In [2]:
people = {
    'first': ['Corey', 'Jane', 'John', 'Chris', np.nan, None, 'NA'], 
    'last': ['Schafer', 'Doe', 'Doe', 'Schafer', np.nan, np.nan, 'Missing'], 
    'email': ['CoreyMSchafer@gmail.com', 'JaneDoe@email.com', 'JohnDoe@email.com', None, np.nan, 'Anonymous@email.com', 'NA'],
    'age': ['33', '55', '63', '36', None, None, 'Missing']
}

In [4]:
df = pd.DataFrame(people)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
4,,,,
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [5]:
# se borran las filas que tienen datos faltantes
df.dropna()

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
6,,Missing,,Missing


In [6]:
df.dropna(axis='index', how='any')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
6,,Missing,,Missing


In [7]:
df.dropna(axis='index', how='all')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [9]:
# La columna cuatro tiene todos sus valores como faltantes
df.dropna(axis='columns', how='any')

0
1
2
3
4
5
6


# BORRAR FILAS CON BASE EN COLUMNAS ESPECIFICAS
Con base en el ejemplo anterior, supongamos que se desea eliminar aquellas filas cuyo email es faltante, para hacer esto, se pasa el argumento `subset` con las columnas que no deben tener valores faltantes.
> `dropna` no altera el dataframe, debe usarse el argumento `inplace`.

In [11]:
# all o any no tiene gran función ante una sola columna
df.dropna(axis='index', how='any', subset=['email'])

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [14]:
# necesito que ambos no sean faltantes para no ser eliminados
df.dropna(axis='index', how='any', subset=['email', 'age'])

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
6,,Missing,,Missing


In [15]:
# con que uno este, no necesito borrarlo
df.dropna(axis='index', how='all', subset=['last', 'email'])

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
5,,,Anonymous@email.com,
6,,Missing,,Missing


# TRATAR VALORES ESPECIFICOS COMO FALTANTES
Reemplazar el dataframe con valores NaN o None

In [16]:
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,,36
4,,,,
5,,,Anonymous@email.com,
6,,Missing,,Missing


In [19]:
df.replace('NA', np.nan, inplace=True)
df.replace('Missing', np.nan, inplace=True)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@email.com,63.0
3,Chris,Schafer,,36.0
4,,,,
5,,,Anonymous@email.com,
6,,,,


Para obtener un dataframe con valores Booleanos dependiendo de si el valor es faltante o no, se usa el método `isna`

In [21]:
df.isna()

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,True,False
4,True,True,True,True
5,True,True,False,True
6,True,True,True,True


Para rellenar los faltantes con datos numericos se usa el método `fillna`

In [25]:
df.fillna(0)

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,0,36
4,0,0,0,0
5,0,0,Anonymous@email.com,0
6,0,0,0,0


# CONVERTIR TIPOS DE DATOS
Suponiendo que se desea obtener la edad promedio de todas las personas que están en el dataframe, resulta imposible actualmente dado que el tipo de dato de esa columna es un `string`. La forma de convertir el tipo de dato es con el método `astype`
> Para saber el tipo de dato de cada columna se accede al dataframe mediante el atributo `dtypes`

In [26]:
# object es string
df.dtypes

first    object
last     object
email    object
age      object
dtype: object

In [28]:
df['age'].mean()

TypeError: can only concatenate str (not "int") to str

Debido a que la columna posee datos faltantes, sus datos se deben convertir de `strings` a `floats`
> `NaN` es un float detrás de escena

In [29]:
type(np.nan)

float

In [30]:
# tambien podrían convertirse los nan a un valor default, pero eso afecta el promedio
df['age'] = df['age'].astype(float)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@email.com,63.0
3,Chris,Schafer,,36.0
4,,,,
5,,,Anonymous@email.com,
6,,,,


In [31]:
df.dtypes

first     object
last      object
email     object
age      float64
dtype: object

In [33]:
df['age'].mean()

46.75

In [36]:
# convertir todo el dataframe a cierto tipo de dato
df = df.astype(str)
df.dtypes

first    object
last     object
email    object
age      object
dtype: object

# MANEJAR DATOS FALTANTES AL CARGAR EL ARCHIVO
Para convertir ciertos datos especificos a `NaN` en el momento de cargar el archivo, estos se pasan en una lista a través del argumento `na_values`

In [44]:
missing_values = ['NA', 'Missing']
df = pd.read_csv('../data/data.csv', index_col='Respondent', na_values=missing_values)
schema_df = pd.read_csv('../data/survey_results_schema.csv', index_col='Column')

In [45]:
pd.set_option('display.max_columns', 85)
pd.set_option('display.max_rows', 85)

In [46]:
schema_df.head()

Unnamed: 0_level_0,QuestionText
Column,Unnamed: 1_level_1
Respondent,Randomized respondent ID number (not in order ...
MainBranch,Which of the following options best describes ...
Hobbyist,Do you code as a hobby?
OpenSourcer,How often do you contribute to open source?
OpenSource,How do you feel about the quality of open sour...


In [48]:
# obtener la experiencia promedio de los desarrolladores
df['YearsCode'].head()

Respondent
1      4
2    NaN
3      3
4      3
5     16
Name: YearsCode, dtype: object

In [49]:
df['YearsCode'].mean()

TypeError: can only concatenate str (not "int") to str

In [51]:
df['YearsCode'].astype(float)

ValueError: could not convert string to float: 'Less than 1 year'

In [52]:
# para obtener valores únicos, se usa el método unique
df['YearsCode'].unique()

array(['4', nan, '3', '16', '13', '6', '8', '12', '2', '5', '17', '10',
       '14', '35', '7', 'Less than 1 year', '30', '9', '26', '40', '19',
       '15', '20', '28', '25', '1', '22', '11', '33', '50', '41', '18',
       '34', '24', '23', '42', '27', '21', '36', '32', '39', '38', '31',
       '37', 'More than 50 years', '29', '44', '45', '48', '46', '43',
       '47', '49'], dtype=object)

In [56]:
# reemplazar esos valores 
df['YearsCode'].replace({'More than 50 years': 51, 'Less than 1 year': 0}, inplace=True)
df['YearsCode'].unique()

array(['4', nan, '3', '16', '13', '6', '8', '12', '2', '5', '17', '10',
       '14', '35', '7', 0, '30', '9', '26', '40', '19', '15', '20', '28',
       '25', '1', '22', '11', '33', '50', '41', '18', '34', '24', '23',
       '42', '27', '21', '36', '32', '39', '38', '31', '37', 51, '29',
       '44', '45', '48', '46', '43', '47', '49'], dtype=object)

In [57]:
df['YearsCode'] = df['YearsCode'].astype(float)

In [58]:
df['YearsCode'].mean()

11.662114216834588