# **DATA WRANGLING**

### SOLUCIONAR PROBLEMAS CON ARCHIVOS CSV

In [None]:
import pandas as pd

data = pd.read_csv("/datasets/gpp_modified.csv")

print(data.head())

```python
  Afghanistan|Kajaki Hydroelectric Power Plant Afghanistan|33   0|32   322|65   119|Hydro|
0                                 Afghanistan|Kandahar DOG|10   0|31    67|65   795|Solar|
1                                 Afghanistan|Kandahar JOL|10   0|31   623|65   792|Solar|
2           Afghanistan|Mahipar Hydroelectric Power Plant ...   0|34   556|69  4787|Hydro|
3           Afghanistan|Naghlu Dam Hydroelectric Power Pla...   0|34   641|69   717|Hydro|
4           Afghanistan|Nangarhar (Darunta) Hydroelectric ...  55|34  4847|70  3633|Hydro|
```

### **El parámetro sep=**

El archivo definitivamente tiene comas, pero parece que el delimitador es en realidad el carácter |. Podemos considerar esto cuando leemos los datos utilizando el parámetro sep= en read_csv(). El argumento por defecto para sep= es ',', lo que explica la estructura de columnas que hemos observado antes. En su lugar, usemos '|' como argumento y veamos cómo afecta eso al DataFrame:

In [None]:
import pandas as pd

data = pd.read_csv("/datasets/gpp_modified.csv", sep="|")

print(data.head())

```python
   Afghanistan       Kajaki Hydroelectric Power Plant Afghanistan   33,0   32,322   65,119  Hydro  Unnamed: 6
0  Afghanistan                                       Kandahar DOG   10,0    31,67   65,795  Solar         NaN
1  Afghanistan                                       Kandahar JOL   10,0   31,623   65,792  Solar         NaN
2  Afghanistan      Mahipar Hydroelectric Power Plant Afghanistan   66,0   34,556  69,4787  Hydro         NaN
3  Afghanistan   Naghlu Dam Hydroelectric Power Plant Afghanistan  100,0   34,641   69,717  Hydro         NaN
4  Afghanistan  Nangarhar (Darunta) Hydroelectric Power Plant ...  11,55  34,4847  70,3633  Hydro         NaN
```

### **Los parámetros header= y names=**

El argumento por defecto es header='infer', que le dice a pandas que intente adivinar los nombres de las columnas. En nuestro caso, pandas adivinó que la primera fila de datos supuestamente son los nombres de las columnas. Podemos arreglarlo pasando header=None de la siguiente manera:


```python
import pandas as pd

data = pd.read_csv('/datasets/gpp_modified.csv', sep='|', header=None)

print(data.head())
```

```python
             0                                                  1      2        3        4      5    6    
0  Afghanistan       Kajaki Hydroelectric Power Plant Afghanistan   33,0   32,322   65,119  Hydro  NaN
1  Afghanistan                                       Kandahar DOG   10,0    31,67   65,795  Solar  NaN
2  Afghanistan                                       Kandahar JOL   10,0   31,623   65,792  Solar  NaN
3  Afghanistan      Mahipar Hydroelectric Power Plant Afghanistan   66,0   34,556  69,4787  Hydro  NaN
4  Afghanistan   Naghlu Dam Hydroelectric Power Plant Afghanistan  100,0   34,641   69,717  Hydro  NaN
```

Podríamos renombrar las columnas después de leer los datos usando el atributo columns del DataFrame o el método rename(), pero también podemos definir los nombres mientras leemos los datos usando el parámetro opcional names= en read_csv(). Si pasas una lista de nombres de columnas al parámetro names=, pandas asignará esos nombres a las columnas en el orden en que aparecen en la lista.

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv('/datasets/gpp_modified.csv', sep='|', header=None, names=column_names)

print(data.head())
```

**RESULTADO**

```python
       country                                              name capacity_mw latitude longitude primary_fuel owner     
0  Afghanistan      Kajaki Hydroelectric Power Plant Afghanistan        33,0   32,322    65,119        Hydro   NaN
1  Afghanistan                                      Kandahar DOG        10,0    31,67    65,795        Solar   NaN
2  Afghanistan                                      Kandahar JOL        10,0   31,623    65,792        Solar   NaN
3  Afghanistan     Mahipar Hydroelectric Power Plant Afghanistan        66,0   34,556   69,4787        Hydro   NaN
4  Afghanistan  Naghlu Dam Hydroelectric Power Plant Afghanistan       100,0   34,641    69,717        Hydro   NaN
```

### **El parámetro decimal=**

En read_csv() podemos usar el parámetro decimal= y pasarle ',' como argumento. Por defecto, read_csv() utiliza decimal='.', por lo que no reconoció los valores numéricos de nuestro conjunto de datos como números de coma flotante.

Para ponerlo todo en orden, leamos el conjunto de datos por última vez:

In [9]:
import pandas as pd

data = pd.read_excel("D:\DATA SCIENCE\global_power_plant_database_v_1_3")

print(data.head())

PermissionError: [Errno 13] Permission denied: 'D:\\DATA SCIENCE\\global_power_plant_database_v_1_3'

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.head())
```

```python
       country                                              name capacity_mw latitude longitude primary_fuel owner      
0  Afghanistan      Kajaki Hydroelectric Power Plant Afghanistan        33.0   32.322    65.119        Hydro   NaN
1  Afghanistan                                      Kandahar DOG        10.0    31.67    65.795        Solar   NaN
2  Afghanistan                                      Kandahar JOL        10.0   31.623    65.792        Solar   NaN
3  Afghanistan     Mahipar Hydroelectric Power Plant Afghanistan        66.0   34.556   69.4787        Hydro   NaN
4  Afghanistan  Naghlu Dam Hydroelectric Power Plant Afghanistan       100.0   34.641    69.717        Hydro   NaN
```

### **RESUMEN**

Aquí está la lista de parámetros READ_CSV() que se aprendió en esta lección:

- **sep=** ---> Para especificar el delimitador correcto.
- **decimal=** ---> para leer decimales correctamente.
- **header=None** ---> para especificar que el archivo no contiene nombres de columna.
- **names=** ---> para establecer los nombres de las columnas manualmente.



## **Ejercicios**

**Ejercicio 1**

El conjunto de datos está disponible en /datasets/letters_colors_decimals.csv. Los valores en dicho dataset están separados por $, y a se utiliza como punto decimal. 
Léelo de tal manera que:

- La primera fila se convierta en el encabezado.
- Las columnas estén separadas correctamente.
- Los decimales se lean correctamente.

Muestra el DataFrame.

In [None]:
import pandas as pd

df = pd.read_csv(
    "/datasets/letters_colors_decimals.csv",
    sep="$",
    # header = None,
    decimal="a",
)

print(df)