# **DATA WRANGLING**

### SOLUCIONAR PROBLEMAS CON ARCHIVOS CSV

In [None]:
import pandas as pd

data = pd.read_csv("/datasets/gpp_modified.csv")

print(data.head())

```python
  Afghanistan|Kajaki Hydroelectric Power Plant Afghanistan|33   0|32   322|65   119|Hydro|
0                                 Afghanistan|Kandahar DOG|10   0|31    67|65   795|Solar|
1                                 Afghanistan|Kandahar JOL|10   0|31   623|65   792|Solar|
2           Afghanistan|Mahipar Hydroelectric Power Plant ...   0|34   556|69  4787|Hydro|
3           Afghanistan|Naghlu Dam Hydroelectric Power Pla...   0|34   641|69   717|Hydro|
4           Afghanistan|Nangarhar (Darunta) Hydroelectric ...  55|34  4847|70  3633|Hydro|
```

### **El parámetro sep=**

El archivo definitivamente tiene comas, pero parece que el delimitador es en realidad el carácter |. Podemos considerar esto cuando leemos los datos utilizando el parámetro sep= en read_csv(). El argumento por defecto para sep= es ',', lo que explica la estructura de columnas que hemos observado antes. En su lugar, usemos '|' como argumento y veamos cómo afecta eso al DataFrame:

In [None]:
import pandas as pd

data = pd.read_csv("/datasets/gpp_modified.csv", sep="|")

print(data.head())

```python
   Afghanistan       Kajaki Hydroelectric Power Plant Afghanistan   33,0   32,322   65,119  Hydro  Unnamed: 6
0  Afghanistan                                       Kandahar DOG   10,0    31,67   65,795  Solar         NaN
1  Afghanistan                                       Kandahar JOL   10,0   31,623   65,792  Solar         NaN
2  Afghanistan      Mahipar Hydroelectric Power Plant Afghanistan   66,0   34,556  69,4787  Hydro         NaN
3  Afghanistan   Naghlu Dam Hydroelectric Power Plant Afghanistan  100,0   34,641   69,717  Hydro         NaN
4  Afghanistan  Nangarhar (Darunta) Hydroelectric Power Plant ...  11,55  34,4847  70,3633  Hydro         NaN
```

### **Los parámetros header= y names=**

El argumento por defecto es header='infer', que le dice a pandas que intente adivinar los nombres de las columnas. En nuestro caso, pandas adivinó que la primera fila de datos supuestamente son los nombres de las columnas. Podemos arreglarlo pasando header=None de la siguiente manera:


```python
import pandas as pd

data = pd.read_csv('/datasets/gpp_modified.csv', sep='|', header=None)

print(data.head())
```

```python
             0                                                  1      2        3        4      5    6    
0  Afghanistan       Kajaki Hydroelectric Power Plant Afghanistan   33,0   32,322   65,119  Hydro  NaN
1  Afghanistan                                       Kandahar DOG   10,0    31,67   65,795  Solar  NaN
2  Afghanistan                                       Kandahar JOL   10,0   31,623   65,792  Solar  NaN
3  Afghanistan      Mahipar Hydroelectric Power Plant Afghanistan   66,0   34,556  69,4787  Hydro  NaN
4  Afghanistan   Naghlu Dam Hydroelectric Power Plant Afghanistan  100,0   34,641   69,717  Hydro  NaN
```

Podríamos renombrar las columnas después de leer los datos usando el atributo columns del DataFrame o el método rename(), pero también podemos definir los nombres mientras leemos los datos usando el parámetro opcional names= en read_csv(). Si pasas una lista de nombres de columnas al parámetro names=, pandas asignará esos nombres a las columnas en el orden en que aparecen en la lista.

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv('/datasets/gpp_modified.csv', sep='|', header=None, names=column_names)

print(data.head())
```

**RESULTADO**

```python
       country                                              name capacity_mw latitude longitude primary_fuel owner     
0  Afghanistan      Kajaki Hydroelectric Power Plant Afghanistan        33,0   32,322    65,119        Hydro   NaN
1  Afghanistan                                      Kandahar DOG        10,0    31,67    65,795        Solar   NaN
2  Afghanistan                                      Kandahar JOL        10,0   31,623    65,792        Solar   NaN
3  Afghanistan     Mahipar Hydroelectric Power Plant Afghanistan        66,0   34,556   69,4787        Hydro   NaN
4  Afghanistan  Naghlu Dam Hydroelectric Power Plant Afghanistan       100,0   34,641    69,717        Hydro   NaN
```

### **El parámetro decimal=**

En read_csv() podemos usar el parámetro decimal= y pasarle ',' como argumento. Por defecto, read_csv() utiliza decimal='.', por lo que no reconoció los valores numéricos de nuestro conjunto de datos como números de coma flotante.

Para ponerlo todo en orden, leamos el conjunto de datos por última vez:

In [9]:
import pandas as pd

data = pd.read_excel("D:\DATA SCIENCE\global_power_plant_database_v_1_3")

print(data.head())

PermissionError: [Errno 13] Permission denied: 'D:\\DATA SCIENCE\\global_power_plant_database_v_1_3'

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.head())
```

```python
       country                                              name capacity_mw latitude longitude primary_fuel owner      
0  Afghanistan      Kajaki Hydroelectric Power Plant Afghanistan        33.0   32.322    65.119        Hydro   NaN
1  Afghanistan                                      Kandahar DOG        10.0    31.67    65.795        Solar   NaN
2  Afghanistan                                      Kandahar JOL        10.0   31.623    65.792        Solar   NaN
3  Afghanistan     Mahipar Hydroelectric Power Plant Afghanistan        66.0   34.556   69.4787        Hydro   NaN
4  Afghanistan  Naghlu Dam Hydroelectric Power Plant Afghanistan       100.0   34.641    69.717        Hydro   NaN
```

### **RESUMEN**

Aquí está la lista de parámetros READ_CSV() que se aprendió en esta lección:

- **sep=** ---> Para especificar el delimitador correcto.
- **decimal=** ---> para leer decimales correctamente.
- **header=None** ---> para especificar que el archivo no contiene nombres de columna.
- **names=** ---> para establecer los nombres de las columnas manualmente.



## **Ejercicios**

**Ejercicio 1**

El conjunto de datos está disponible en /datasets/letters_colors_decimals.csv. Los valores en dicho dataset están separados por $, y a se utiliza como punto decimal. 
Léelo de tal manera que:

- La primera fila se convierta en el encabezado.
- Las columnas estén separadas correctamente.
- Los decimales se lean correctamente.

Muestra el DataFrame.

In [None]:
import pandas as pd

df = pd.read_csv(
    "/datasets/letters_colors_decimals.csv",
    sep="$",
    # header = None,
    decimal="a",
)

print(df)

### **Leer archivos Excel**

Como ya sabes, pandas proporciona la función read_excel() para leer archivos Excel. Por defecto, esta función carga la primera hoja, pero un archivo Excel puede contener varias hojas.

Como puedes ver en la imagen siguiente, tenemos un dataset de reseñas de productos que contiene cuatro hojas: reviews, reviewers, products y product_categories.

Vamos a leer el archivo Excel utilizando únicamente la ruta de archivo /datasets/product_reviews.xlsx:



```python
import pandas as pd

df = pd.read_excel('/datasets/product_reviews.xlsx')

print(df.head())

#Resultado

           id reviewer_id  product_id  review
0  2546305677    cG441617  5003186430       3
1  2603422798    cH443811  7130698135       1
2  2598103631    bF100137  4023404310       4
3  2632674394    cF786880  7130698135       4
4  2594782880    aF649317  5003186430       5
```

### **El parámetro sheet_name=**

Si necesitas una hoja diferente a la predeterminada, debes pasar dos argumentos: la ruta del archivo (una cadena) y sheet_name= con el nombre de la hoja (también una cadena). Intentemos leer la hoja reviewers.


```python
import pandas as pd

df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name='reviewers')

print(df.head())

#resultado

         id date_joined  zipcode
0  aF195825  2012-06-21    91914
1  aF249047  2019-03-26    91915
2  aF362092  2012-01-05    91941
3  aF484180  2019-06-11    91941
4  aF539111  2011-03-04    92003
```

También podemos utilizar el índice de la hoja en lugar de su nombre en el segundo argumento: sheet_name=0 nos da la primera hoja; sheet_name=1, la segunda; etc.


### **Ejercicios**

**Ejercicio 1**

Calcula la puntuación promedio de las opiniones siguiendo estos pasos:
- Lee la primera hoja del fichero Excel ubicado en /datasets/product_reviews.xlsx y guárdala en una variable llamada df_reviews.
- Selecciona la columna 'review' de df_reviews.
- Aplica el método adecuado para calcular el valor medio.
 -Muestra el resultado en la pantalla.

```python
import pandas as pd

df_reviews = pd.read_excel('/datasets/product_reviews.xlsx')
print(df_reviews['review'].mean())
```

**Ejercicio 2**

Para obtener más información sobre los productos de este conjunto de datos, lee la hoja products del archivo Excel en una variable llamada df_products. 

A continuación, ordena el DataFrame por la columna 'id' en orden ascendente utilizando el método apropiado y guárdalo en la variable sorted_df_products. Si no recuerdas el nombre del método, no te preocupes, tenemos una pista que te ayudará.

Por último, no olvides imprimir el dataframe ordenado.

```python
import pandas as pd

df_products = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name= 'products')

sorted_df_products = df_products.sort_values(by = 'id' ,ascending = True)

print(sorted_df_products)
```

**Ejercicio 3**

Además de los nombres de los productos, el dataset también contiene información sobre cómo se clasifican los productos. Por eso había una columna 'category_id' en la tabla del último ejercicio.

Lee la hoja final de product_categories en una variable llamada df_categories. Luego simplemente muestra df_categories en la pantalla.

```python
df_products = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name= 'product_categories')
Print(df_products)
```

### **Observación de datos**

#### **Revisión del método info()**

Nunca es mala idea llamar al método info() cada vez que empieces a trabajar con un nuevo DataFrame. El método info() no devuelve nada, sino que imprime información general sobre el DataFrame (lo que significa que no es necesario utilizar print() con info()).

Leamos de nuevo los datos de la central y llamemos a info() para ver qué información nos brinda:


```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

data.info()

#RESULTADO

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34936 entries, 0 to 34935
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   country       34936 non-null  object 
 1   name          34936 non-null  object 
 2   capacity_mw   34936 non-null  float64
 3   latitude      34936 non-null  float64
 4   longitude     34936 non-null  float64
 5   primary_fuel  34936 non-null  object 
 6   owner         20868 non-null  object 
dtypes: float64(3), object(4)
memory usage: 1.9+ MB
```

Solo con este método, obtenemos la siguiente información:

- el número de filas (RangeIndex: 34936 entries);
- el número de columnas (total 7 columns);
- el nombre de cada columna (Column);
- el número de valores de cada columna que no están ausentes (Non-Null Count);
- el tipo de datos de cada columna (Dtype).

Ten en cuenta: no se puede acceder directamente a la información mostrada por info() para almacenarla en variables o utilizarla en cálculos porque info() no devuelve nada, solo muestra en la pantalla. Si necesitas asignar un atributo del DataFrame a una variable para utilizarla más tarde, tendrás que acceder a ese atributo directamente.

Si quieres almacenar el número de filas y columnas como variables, puedes utilizar el atributo shape. Este atributo devuelve tanto el número de filas como el número de columnas en el dataset. Así es como puede utilizarse:

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

n_rows, n_cols = data.shape

print(f"El DataFrame tiene {n_rows} filas y {n_cols} columnas")

#RESULTADO

El DataFrame tiene 34936 filas y 7 columnas
```

#### **El método sample()**

El método info() es estupendo, pero puedes obtener una visión aún más completa de tus datos combinando info() con la impresión de algunas filas de DataFrame. Recuerda que podemos hacerlo con los métodos head() o tail(). Por ahora vamos a empezar con head():

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.head())

#RESULTADO

       country                                              name capacity_mw latitude longitude primary_fuel owner   
0  Afghanistan      Kajaki Hydroelectric Power Plant Afghanistan        33.0   32.322    65.119        Hydro   NaN
1  Afghanistan                                      Kandahar DOG        10.0    31.67    65.795        Solar   NaN
2  Afghanistan                                      Kandahar JOL        10.0   31.623    65.792        Solar   NaN
3  Afghanistan     Mahipar Hydroelectric Power Plant Afghanistan        66.0   34.556   69.4787        Hydro   NaN
4  Afghanistan  Naghlu Dam Hydroelectric Power Plant Afghanistan       100.0   34.641    69.717        Hydro   NaN
```

El método sample() selecciona filas aleatorias del DataFrame en lugar de filas consecutivas del principio o del final del DataFrame. Vamos a utilizarlo para imprimir 5 filas de nuestros datos:

```python
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.sample(5))

#RESULTADO

                        country                         name  capacity_mw  latitude  longitude primary_fuel                   owner 
5208                      China  Bayanur Wuliji Wind Phase 2         49.0   41.5333   106.4167         Wind                     NaN  
29010  United States of America          J Robert Massengale         84.0   33.6039  -101.8408          Gas  City of Lubbock - (TX) 
611                   Australia        Mugga Lane Solar Park         13.0  -35.3989   149.1460        Solar       Maoneng Australia
5350                      China           Changli Datan Wind         48.0   39.5050   119.1797         Wind                     NaN
4419                     Canada                       Rawdon          2.5   46.0458   -73.7294        Hydro         Algonquin Power
```