<table>
    <tr>
      <td>Grado en Ingeniería de Datos e Inteligencia Artificial - Facultad de Informática - UCM
      </td>
      <td>
      <img src="https://biblioteca.ucm.es/data/cont/media/www/pag-88746//escudo.jpg"  width=50/>
      </td>
     </tr>
</table>

## Adquisicion y preprocesamiento de datos - RafaC

### Eliminando filas y columnas duplicadas
Una vez descargado y listo nuestro dataframe inicial una primera tarea suele ser detectar columnas que no serán útiles, así como eliminar columnas y/o filas duplicadas, aunque esto dependerá del problema.

### Índice
[Columnas_inutiles](#Columnas_inutiles)<br>
[Filas duplicadas](#Filas_duplicadas)<br>
[Columnas duplicadas](#Columnas_duplicadas)<br>


<a name="Columnas_inutiles"></a>
## Columnas Inútiles

Una columna puede ser inútil en varias situaciones:

* Una columna que toma un único valor
* Una columna nominal que toma valores diferentes para todas sus filas, y es un valor arbitrario que no indica nada del problema (conocimiento a priori)
* ...

Para esto podemos emplear `unique()`


In [5]:
import pandas as pd

datos = {
    'nif' : [5412,1265,1333,1111,9899,8888],
    'edad': [40,20,30,40,50,60],
    'ingresos': [20000,50000,25000,24000,90000,650000],
    'valido' : ['Yes']*6
}

df = pd.DataFrame(datos)
df

Unnamed: 0,nif,edad,ingresos,valido
0,5412,40,20000,Yes
1,1265,20,50000,Yes
2,1333,30,25000,Yes
3,1111,40,24000,Yes
4,9899,50,90000,Yes
5,8888,60,650000,Yes


In [6]:
for c in df.columns:
    cuantos = len(df[c].unique())
    if cuantos==1:
        print(f"{c} tiene un único valor")
    elif cuantos==len(df):
        print(f"{c} tiene todos los valores diferentes")
    

nif tiene todos los valores diferentes
ingresos tiene todos los valores diferentes
valido tiene un único valor


Recordar que no hay una regla general y que borrar estas columnas o no dependerá de cada caso

<a name="Filas_duplicadas"></a>
## Filas Duplicadas

In [7]:

# ejemplo tomado de https://sparkbyexamples.com/pandas/pandas-get-list-of-all-duplicate-rows
import pandas as pd
technologies = {
    'Courses':["Spark","PySpark","Python","pandas","Python","Spark","pandas"],
    'Fee' :[20000,25000,22000,30000,22000,20000,30000],
    'Duration':['30days','40days','35days','50days','40days','30days','50days'],
    'Discount':[1000,2300,1200,2000,2300,1000,2000]
              }
df = pd.DataFrame(technologies)
df

Unnamed: 0,Courses,Fee,Duration,Discount
0,Spark,20000,30days,1000
1,PySpark,25000,40days,2300
2,Python,22000,35days,1200
3,pandas,30000,50days,2000
4,Python,22000,40days,2300
5,Spark,20000,30days,1000
6,pandas,30000,50days,2000


Las dos funciones que nos van a ayudar en esta tarea son [duplicated](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html) y [drop_duplicates](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html). 

Duplicated nos devuelve un array de booleanos que podremos usar como índices. Algunas cuestiones importantes:

- No tiene en cuenta índices, los ignora
- Comprueba todas las columnas, pero se puede indicar un subconjunto concreto de columnas con `subset`
- Por defecto señala como duplicada la segunda aparición y posteriores de una fila, esto se puede cambiar con el parámetro `keep` que por defecto vale "first" que deja la primera "last" (la última), y False (marca todos los duplicados)

In [8]:
df.duplicated() 

0    False
1    False
2    False
3    False
4    False
5     True
6     True
dtype: bool

In [9]:
df.duplicated(keep=False)

0     True
1    False
2    False
3     True
4    False
5     True
6     True
dtype: bool

In [11]:
df.drop_duplicates()

Unnamed: 0,Courses,Fee,Duration,Discount
0,Spark,20000,30days,1000
1,PySpark,25000,40days,2300
2,Python,22000,35days,1200
3,pandas,30000,50days,2000
4,Python,22000,40days,2300


In [12]:
df

Unnamed: 0,Courses,Fee,Duration,Discount
0,Spark,20000,30days,1000
1,PySpark,25000,40days,2300
2,Python,22000,35days,1200
3,pandas,30000,50days,2000
4,Python,22000,40days,2300
5,Spark,20000,30days,1000
6,pandas,30000,50days,2000


In [13]:
df.drop_duplicates(subset=["Courses"])

Unnamed: 0,Courses,Fee,Duration,Discount
0,Spark,20000,30days,1000
1,PySpark,25000,40days,2300
2,Python,22000,35days,1200
3,pandas,30000,50days,2000


<a name="Columnas_duplicadas"></a>
## Columnas Duplicadas

La forma más fácil es usar `T`para convertir columnas en filas

In [17]:
import pandas as pd

datos = {
    'c1' : [5412,1265,1333,1111,9899,8888],
    'c2': [40,20,30,40,50,60],
    'c3': [20000,50000,25000,24000,90000,650000],
    'c4' : [5412,1265,1333,1111,9899,8888]
}

df2 = pd.DataFrame(datos)
df2

Unnamed: 0,c1,c2,c3,c4
0,5412,40,20000,5412
1,1265,20,50000,1265
2,1333,30,25000,1333
3,1111,40,24000,1111
4,9899,50,90000,9899
5,8888,60,650000,8888


In [18]:

# Drop duplicate columns
df3 = df2.T.drop_duplicates().T
df3


Unnamed: 0,c1,c2,c3
0,5412,40,20000
1,1265,20,50000
2,1333,30,25000
3,1111,40,24000
4,9899,50,90000
5,8888,60,650000


Si lo que queremos es borrar columnas con el mismo nombre podemos usar `groupby` con `first`

In [23]:
import pandas as pd

datos = [
     [10]*4,
     [20]*4,
     [30]*4,
     [10]*4,
]

df2 = pd.DataFrame(datos,columns=["c1","c2","c1","c3"])
df2

Unnamed: 0,c1,c2,c1.1,c3
0,10,10,10,10
1,20,20,20,20
2,30,30,30,30
3,10,10,10,10


In [25]:


df3 = df3.T.groupby(level=0).first().T
df3


Unnamed: 0,c1,c2,c3
0,5412,40,20000
1,1265,20,50000
2,1333,30,25000
3,1111,40,24000
4,9899,50,90000
5,8888,60,650000
