 <h1> <center> Manipulación y Procesamiento de Datos </center> </h1> 

<h2> Procesamiento de bases de datos </h2>
<p>En la sesión de hoy abordaremos distintos aspectos relacionados con la manipulación de datos</p>
<ul>
    <li> Eliminación de índices y columnas </li>
    <li> Indexar elementos de un <i>data frame</i></li>
    <li> Reemplazar filas, columnas o valores en especifíco </li>
    <li> Las series en Python </li>
    <li> Tratamientos de los missing values </li>
</ul>
    


<h3>Eliminación de índices y columnas</h3>
Para eliminar índices y columnas en python.pandas podemos .drop() de la siguiente manera:

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = {'Nombre':['Maria', 'Carlos', 'Juan', 'Lorena'],
        'Edad':[27, 24, 22, 32],
        'Ciudad':['Bogota', 'Cali', 'Bucaramanga', np.nan],
        'Sexo':['F', 'M', 'M', 'F']}
df = pd.DataFrame(df)
df2 = pd.DataFrame(df)
print(df2,"\n")

# Eliminemos la columna por su etiqueta                 
df2.drop('Ciudad', axis=1, inplace=True)
print(df2,"\n")
# Eliminemos la columna por su posición
df2.drop(df2.columns[[1]], axis=1)
print(df2,"\n")


   Nombre  Edad       Ciudad Sexo
0   Maria    27       Bogota    F
1  Carlos    24         Cali    M
2    Juan    22  Bucaramanga    M
3  Lorena    32          NaN    F 

   Nombre  Edad Sexo
0   Maria    27    F
1  Carlos    24    M
2    Juan    22    M
3  Lorena    32    F 

   Nombre  Edad Sexo
0   Maria    27    F
1  Carlos    24    M
2    Juan    22    M
3  Lorena    32    F 



In [None]:
# Eliminación de índices por su posición
print(df2, "\n")
print(df2.drop(df2.index[2]))

<h3>Indexar elementos de un <i>data frame</i></h3>
<p> Existen diversas formas de realizar una indexaxión en un <i>data frame</i>, por ejemplo utilizando las posiciones de los índices y las columnas con .iloc, .loc y .at </p>

In [None]:
# Usando `iloc[]`
print(df,"\n")
print(df.iloc[3][1])

# Usando `loc[]`
print(df.loc[2]['Sexo'])

# Usando `at[]`
print(df.at[3,'Ciudad'])

# Usando `iat[]`
print(df.iat[3,3])

<h3>Reemplazar filas, columnas o valores en especifíco</h3>
Para reemplazar los valores de una columna, podemos utilizar .replace(). ¿Podemos hacerlo indexando índices y/o columnas en específico?

In [None]:
print(df)
print(df.replace(['Maria', 'Carlos', 'Lorena', 'Bucaramanga'], [0, 1, 2, 3]) )

In [None]:
# Miremos el siguiente caso
df['Calificación'] = ['+3.5A','-2.4v','*1.5d','%5.0B']
print(df,"\n")
# Eliminemos aquellos caracteres que hacen ruido
df['Calificación'] = df['Calificación'].map(lambda x: x.lstrip('+-*%').rstrip('aAbBcCdv'))
print(df)

# .map(): Aplicar una función a todos los elementos de una función
# .lstrip(): Remueve caracteres posicionados a la izquierda de la cadena
# .rstrip(): Remueve caracteres posicionados a la derecha de la cadena
# lambda: Función anonima

<h2> Series en python.pandas </h2>
<p>Hasta el momento hemos visto distintos tipos de elementos en Python, como <i>data frames, matrices, vectores, listas</i>. Ahora veremos que es una serie</p>
<p> Basicamente una serie es una matriz etiquetada unidimensional (<i> vector</i>) capaz de contener cualquier tipo de datos. Por series se puede entender una columna en una hoja de Excel.</p>

<p> Veamos algunos ejemplos: </p>


In [4]:
data = np.array(list(range(0,50)))
serie = pd.Series(data)
print(serie.head())

0    0
1    1
2    2
3    3
4    4
dtype: int64


In [5]:
# Creemos una serie
serie1 = pd.Series([230, 22, 45], index=['Andres', 'Felipe', 'Camilo'])
serie2 = pd.Series([22, 230, 45], index=['Maria', 'Alejandra', 'Laura'])


serie1.add(serie2, fill_value=0)

Alejandra    230.0
Andres       230.0
Camilo        45.0
Felipe        22.0
Laura         45.0
Maria         22.0
dtype: float64

<h2> Tratamiento de Missing Values </h2>
<p>Existen múltiples formas de manipular <i>missing values</i> en Python, inclusive es posible encontrar modulos en librerías de Machine Learning que realizan esos procesos (revisar los modulos importados en la Clase_1)</p>

<p> En esta sección veremos los siguientes métodos para tratar con datos pérdidos: </p>
<ul>
    <li> .isnull() nos permite visualizar en que lugar se encuentran ubicados los missing values </li>
    <li> .fillna() nos permite reemplazar los missing values por un valor en específico </li>
    <li> .dropna() nos permite eliminar los índices en los que se encuentra alojado al menos un missing value </li>
 </ul>
 <p> Existen otros métodos para tratamientos de missing value que veremos en las próximas sesiones </p>
 <br></br>
 <p> Por ahora, como ejercicio identifique los missing values del objeto <i>df</i></p>

In [None]:
# 