## Solucionar problemas con archivos csv
---

CSV significa **valores separados por comas**. Sin embargo, un archivo CSV no tiene que usar solo una coma como **delimitador**; se puede usar cualquier carácter. 

A veces pueden aparecer como archivos `.tsv` o `.tab` (también conocidos como archivos TSV) además de `.csv`.

Existen formas de lidiar con estos problemas: 
1. Usar el argumento `sep`. 
2. Indicar nombre de encabezados con `header = None` y `name=`. 
3. Renombrar encabezados con `header = None`y `rename()`. 
4. Indicar tipo de decimales con el argumento `decimal = `. 

In [25]:
import pandas as pd

In [26]:
## Uso de tipo de separador, por defecto ","
data = pd.read_csv('/datasets/gpp_modified.csv', sep='|')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/gpp_modified.csv'

In [None]:
## Indicar nombre de encabezados 
column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
    ]

data = pd.read_csv('/datasets/gpp_modified.csv', header=None, names=column_names)

In [None]:
## Renombrar encabezado
data = pd.read_csv('/datasets/gpp_modified.csv', header=None)

data = data.rename(columns = {0: "country",1: "name", 2:"capacity_mw"})

In [None]:
## Indicar el tipo de decimal 
data = pd.read_csv('/datasets/gpp_modified.csv', decimal=',')

## Leer archivos excel
---

Pandas proporciona la función `read_excel()` para leer archivos Excel 

Por defecto, esta función carga la primera hoja, pero un archivo Excel puede contener varias hojas. Para tal caso utilizar el parámetro `sheet_name=` y especificar el nombre o el número de la hoja que queremos seleccionar. 

In [None]:
## Abrir archivo excel
### Con nombre de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name='reviewers')

### Con número de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name=1)



## Inspección de los datos
---

Echar un vistazo a tus datos es útil cuando empiezas a trabajar con un nuevo dataset porque te ayudan a plantear las primeras preguntas que debes explorar. Algunos de los atributos y métodos incluyen: 

- `info()`. Imprime información general sobre el DataFrame
- `shape()`. Devuelve tanto el número de filas como el número de columnas en el dataset. 
- `sample()`. Selecciona filas aleatorias del DataFrame en lugar de filas consecutivas del principio o del final del DataFrame. 
- `describe()`. 

In [None]:
## Estructura del dataframe
df.info()

Obtenemos la siguiente información: 

- El número de filas (RangeIndex: __ entries);
- El número de columnas (total __ columns);
- El nombre de cada columna (Column);
- El número de valores de cada columna que no están ausentes (Non-Null Count);
- El tipo de datos de cada columna (Dtype).

In [None]:
## Almacenar número de filas y columnas como variables
n_rows, n_cols = df.shape

print(f" El dataframe tiene {n_rows} filas y {n_cols} columnas")

La función `shape` devuelve una **tupla** como salida. 

Una tupla es un tipo de datos similar a una lista de Python en términos de indexación, objetos anidados y repetición. Sin embargo, la principal diferencia entre ambas es que una tupla Python es inmutable (no puede modificarse), mientras que una lista Python es mutable.

Para poder tener una mejor visión del dataframe, podemos combinar el método `info()` y otro métodos como `head()` o `tail()`. Sin embargo,para poder observar una mejor muestra de los datos que se encuentran en el dataframe y no solo los encabezados y la última parte se puede usar el método `sample()`. Si quiero que haya repetibilidad en mi aleatoriedad agregar el argumento `random_satet()` y establecer y algún valor entero de tu elección (cualquier número entero entre 0 y 4294967295).

In [None]:
## Encabezados
print(data.head(10))

## Parte final 
print(data.tail(10))

## Aleatorio
print(data.sample(10))

## Aleatoriedad establecida
print(data.sample(10, random_state= 1989))

El método `describe()` es muy útil para obtener información sobre las columnas numéricas de tus datos. La salida incluye estadísticas de resumen.   

Es aconsejable que además, el análisis se acompañe de visualizaciones de datos para obtener una imagen completa, , ya que es posible que sus estructuras sean muy diferentes aunque tengan estadísticas resumidas similares (como el cuarteto de Anscombe). 

In [None]:
## Método describe()
print(data.describe())

De manera predeterminada, se ignoran las columnas no numéricas. Para poder incluir otro tipo de columnas no numéricas se utiliza el parámetro `include =` con el tipo de datos que queremos añadir p.e, `object` u añadir todas las columnas `all`. 

## Trabajar con valores ausentes y duplicados
---

### Contar valores ausentes
Una buena manera de empezar a comprobar los valores ausentes es llamar al método `info()` de tu DataFrame. Los valores nulos son valores ausentes, mientras que los no nulos son valores no ausentes. 

Una vez identificado el número de observaciones podemos determinar el número de valores ausentes con `isna()`.

In [None]:
## Determinar la información del dataframe
data.info()

## Contar el número de valores ausentes de cada columna
data.isna().sum()

## Contar el número de valores ausentes totales
data.isna().sum().sum()

Otra opción es con el método `value_counts()`, que devuelve la cantidad de veces que cada valor único aparece en esa columna. Este método es conveniente utilizarlo sobre una solo columna o *series*. 

In [None]:
## Conocer el número de valores únicos para la columna source
print(df_logs['source'].value_counts(dropna=False)) # drop_na=False permite contar el número de Nas en la columna

La salida se ordena en orden descendente según el recuento de cada valor. Alternativamente, podemos ordenar la salida alfabéticamente según los nombres de los valores. Para hacerlo, podemos utilizar el método `sort_index()`.

In [None]:
## Ordenar el resultado de acuerdo con el index y no de acuerdo con los valores de la columna
print(df_logs['source'].value_counts(dropna=False).sort_index())

### Filtrar Dataframes con NaNs

Para examinar las filas auseentes del dataframe, una de las maneras es utilizar el método `is.na()`.  El resultado genera una serie con los valores ausente `True`. 

In [None]:
## Filtra los valores con NaNs
print(df_logs[df_logs['source'].isna()]) 


Sin embargo, a veces no es eso lo que nos convien. Para ello resulta más útil combinar `~ `con `isna()` para filtrar las filas con valores ausentes. La adición del símbolo de tilde (~), invierte el resultado.

In [None]:
## Filtra los valores sin NaNs
print(df_logs[~df_logs['source'].isna()])

Es posible filtrar un dataframe a partir de **múltiples condiciones de filtrado**. 

In [None]:
# Filtrar el df donde no haya valores ausentes en la columna "email" 
# y que solo sean valores de email de la columna source
print(df_logs[(~df_logs['email'].isna()) & (df_logs['source'] == 'email')])

El código de filtrado anterior consta de dos partes:

1. `(~df_logs['email'].isna())` devuelve una serie de booleanos donde `True` indica que no falta ningún valor en la columna `'email'`.

2. `(df_logs['source'] == 'email')` devuelve una serie de booleanos, donde `True` indica que `'source'` tiene `'email'` como valor, y `False` indica lo contrario.

3. Comprobamos dos series de booleanos para ver dónde ambas condiciones devuelven `True`. Utilizamos el símbolo `&` para representar el operador lógico `and`. Las filas que cumplen ambas condiciones (es decir, que cumplen la primera condición y la segunda) se incluyen en el resultado final.

### Rellenar los valores categóricos ausentes

Como recordatorio, las **variables categóricas** o **cualitativas** representan un conjunto de valores posibles que puede tener una observación particular. Es posible que tengan un orden en particular, por lo que serían **ordinales** o pueden no tener un orden en particular, por lo que serían **nominales**. 

Podemos sustituir los valores ausentes de las columnas con **valores por defecto** por ejemplo, una cadena vacía `''` . Esto lo podemos realizar con el método `fillna()`. 

In [None]:
## Sustituir valores ausentes
df_logs['email'] = df_logs["email"].fillna(value= "")

Usar `fillna()` no es la única forma en que podemos rellenar los valores ausentes con cadenas vacías. También podemos hacerlo directamente al leer los datos mediante `read_csv()` utilizando el parámetro `keep_default_na = False`. 

In [None]:
## Cargar el dataset haciendo que en vez de que sean NaN = TRUE sea FALSE
df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

print(df_logs.head())

<div class="alert alert-block alert-warning">
<b>Nota:</b> <a class="tocSkip"></a>

Ten en cuenta que establecer `keep_default_na=False` convierte todos los valores ausentes **en cadenas vacías**, incluso para columnas numéricas. Esto hace que las columnas numéricas se lean como cadenas cuando tienen valores ausentes.   

Así que asegúrate de usar solo `keep_default_na=False` cuando desees que todos los valores ausentes en cada columna se lean como cadenas vacías.
</div>

Es posible que, querramos sustituir los valores de defecto por algún otro valor. En tal caso es útil emplear el método `replace()`.

In [None]:
## Remplazar el valor de defecto "" por otro valor
df_logs['source'] = df_logs["source"].replace("", "email")

### Rellenar los valores ausentes cualitativos 

Como recordatorio, las variables **cuantitativas** tienen valores numéricos que podemos usar para cálculos aritméticos, por ejemplo, la altura, el peso, la edad y los ingresos. En Python, estos valores tienden a almacenarse como números enteros o flotantes.

Debido a que queremos hacer cálculos numéricos con estas columnas, no podemos rellenar esos valores con cadenas como `'Unknown'` o `''`. En su lugar, debemos rellenarlos con valores representativos apropiados. Para estos valores se suele utilizar la **media** o la **mediana** del conjunto de datos.

La elección entre media o mediana dependerá de la uniformidad de los valores, es decir, de su **distribución**. 


Para rellenar los valores ausentes, podemos seguir estos pasos:

1. Determina la distribución de los datos.

2. Si no hay valores atípicos significativos, calcula la media utilizando el método `mean()`.

3. Si tus datos tienen valores atípicos significativos, calcula la mediana utilizando el método `median()`.

4. Reemplaza los valores ausentes con la media o la mediana utilizando el método `fillna()`.

In [None]:
## Remplazar el promedio 
### Determinar el promedio 
age_avg = analytics_data['age'].mean()
print("Mean age:", age_avg)

### Remplazar la columna con los valores promedio
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

<div class="alert alert-block alert-warning">
<b>Nota:</b> <a class="tocSkip"></a>

También vale la pena señalar que a veces no necesitamos rellenar los valores ausentes en absoluto.  Por ejemplo, si solo falta una pequeña parte de tus datos, y los datos ausentes son aleatorios, podría ser buena idea dejar los valores como NaN, en cuyo caso simplemente no se incluirían en ningún cálculo numérico.
</div>

### Gestión de duplicados

Otro de los problemas comunes en la etapa de procesamiento de datos en las bases de datos son los valores duplicados. 

Hay dos técnicas que funcionan para encontrar datos duplicados:

1. Podemos utilizar el método `duplicated()` junto con `sum()` para obtener el número de valores duplicados en una sola columna o filas duplicadas en un DataFrame. 

In [None]:
## Columna booleana con False si no es duplicada y True si lo es 
print(df.duplicated())

## Conteo de las filas duplicadas
print(df.duplicated().sum())

## Conocer las filas duplicadas
print(df[df.duplicated()])

2. Podemos utilizar el método `value_counts()`. Este método identifica todos los valores unívocos en una columna y calcula cuántas veces aparece cada uno. Podemos aplicar este método a los Series para obtener los pares valor-frecuencia en orden descendente.

In [None]:
## Conocer el número de veces que determinada fila es similar
print(df['col_1'].value_counts())

Es importante notar que mediante este método solo se inspecciona la columna seleccionada, puede que no sea un **duplicado explicito** y solo se repita el valor de dicha columna y no de las subsecuentes. 

Para el caso de que existan **filas completamente duplicadas**, se pueden tratar utilizando el método `drop_duplicates()`. 

In [None]:
## Eliminar filas duplicadas explícitas
print(df.drop_duplicates())

Si solo deseas considerar duplicados en una (o algunas) de las columnas en lugar de filas completamente duplicadas, puedes usar el parámetro `subset=`. Pásale el nombre de la columna (o la lista de nombres de columna) donde deseas buscar duplicados. 

In [None]:
## Eliminar filas seleccionadas 
print(df.drop_duplicates(subset='col_1'))

Esto eliminará las columnas con valores similares, pero puede eliminar otras columnas donde los valores sean diferentes. 

Recuerda que después de eliminar los duplicados, tenemos que llamar al método `reset_index()` con el parámetro `drop=True`. Esto nos permite arreglar la indexación y eliminar el índice antiguo.

Existen casos en donde existan **duplicados implícitos** y puedan existir *typos*. Para ello, la forma más sencilla de manejar entradas duplicadas como estas es homogeneizar los términos de acuerdo con las buenas prácticas de programación. 

Por ejemplo, hacer que todas las letras de cadenas estén en minúsculas, utilizando el método `lower()`. 

In [None]:
## Convertie los strings en mínusculas
print(df['col_1'].str.lower())

Después de `df['col_1']`, tenemos `.str`, que nos permite aplicar métodos de cadena directamente a la columna. Esto es necesario para poder aplicar el método `lower()` en el paso siguiente. 

Para que el cambio se preserve, ten en cuenta que se debe **sustituir** la columna original. 

In [None]:
## Sustituir la columna col_1
df['col_1'] = df['col_1'].str.lower()
print(df)

Otra opción para cambiar duplicados, sin necesidad de cambiar mayúsculas por minúsculas, es cambiar todas las apariciones específicas de una columnas por otro string, utilizando el método `replace()`. 

In [None]:
## Remplazar un string por otro
df['category_modified'] = df['category'].str.replace('tbc', 'baby care')
print(df)

Si no estás seguro de cuál es el mejor enfoque, siempre puedes conservar la columna original y crear una nueva columna adicional, con las cadenas modificadas. Por ejemplo, podrías guardar el resultado de la sustitución en la columna `'item'` en una nueva columna llamada `'item_modified'`. 

In [None]:
## Creación de nueva columa 
df['category_modified'] = df['category'].str.replace('tbc', 'baby care')
print(df)

Finalmente otra aproximación para poder cambiar un valor específico es utilizar el método `loc[]`. Para ello: 

1. Buscamos la fila que contiene el valor que queremos sustituir. 
2. Pasamos el índice y el nombre de columna adecuados a `loc[]`, y utiliza el signo `=` para establecer el valor deseado.

In [None]:
# Ejemplo en conjunto

## Determinar el promedio
avg_per_category = df.groupby('category')['price'].mean()

## Extraer del dataframe
mean_val = avg_per_category[2]

## Sustituir mediante loc[]
df.loc[7,"price"] = mean_val# escribe tu código aquí

print(df)

## Filtrado de datos
---

### Atributo index
Los objetos Series y DataFrame en pandas siempre tienen índices que se almacenan en el atributo index. Cada vez que creas un Series o un DataFrame, su atributo de index se crea automáticamente con valores por defecto si no especificas los valores del índice.

Existen dos maneras de establecer valores de índice:

- Pasar los valores del índice al parámetro `index=` al crear un DataFrame o un Series.
- Asignar los valores del índice al atributo `index` de un DataFrame o Series existente.

In [30]:
## Manera 1: Pasar los valores al parámetro index
oceans = pd.Series(['Pacific', 'Atlantic', 'Indian', 'Southern', 'Arctic'],
                   index=['A', 'B', 'C', 'D', 'E'])

print(oceans)
print()

## Manera 2: Asignar los valores al atributo index
oceans = pd.Series(['Pacific', 'Atlantic', 'Indian', 'Southern', 'Arctic'])

oceans.index = [1, 2, 3, 4, 5]
print(oceans)

A     Pacific
B    Atlantic
C      Indian
D    Southern
E      Arctic
dtype: object

1     Pacific
2    Atlantic
3      Indian
4    Southern
5      Arctic
dtype: object


En el caso de los DataFrames, existe otra forma de establecer los valores del índice mediante el método `set_index()`. 

In [31]:
states  = ['Alabama', 'Alaska', 'Arizona', 'Arkansas']
flowers = ['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom']
insects = ['Monarch butterfly', 'Four-spotted skimmer dragonfly', 'Two-tailed swallowtail', 'European honey bee']
index   = ['state 1', 'state 2', 'state 3', 'state 4']

df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)
df = df.set_index('state') # reemplazar el índice

print(df)
print()
print(df.index)

                          flower                          insect
state                                                           
Alabama                 Camellia               Monarch butterfly
Alaska             Forget-me-not  Four-spotted skimmer dragonfly
Arizona   Saguaro cactus blossom          Two-tailed swallowtail
Arkansas           Apple blossom              European honey bee

Index(['Alabama', 'Alaska', 'Arizona', 'Arkansas'], dtype='object', name='state')


Originalmente, nuestros índices eran números de estado: 'state 1', 'state 2' etc. Después, los sustituimos por los valores de la columna 'state'.

Si no quieres que el índice tenga un nombre, puedes eliminarlo estableciendo el atributo index_name de un DataFrame a None. Así es como puedes hacerlo:

In [32]:
states  = ['Alabama', 'Alaska', 'Arizona', 'Arkansas']
flowers = ['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom']
insects = ['Monarch butterfly', 'Four-spotted skimmer dragonfly', 'Two-tailed swallowtail', 'European honey bee']
index   = ['state 1', 'state 2', 'state 3', 'state 4']

df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)
df = df.set_index('state')

df.index.name = None
print(df)
print()
print(df.index)

                          flower                          insect
Alabama                 Camellia               Monarch butterfly
Alaska             Forget-me-not  Four-spotted skimmer dragonfly
Arizona   Saguaro cactus blossom          Two-tailed swallowtail
Arkansas           Apple blossom              European honey bee

Index(['Alabama', 'Alaska', 'Arizona', 'Arkansas'], dtype='object')


### Indexación 
Ahora vamos a hablar de **indexación**. La terminología puede ser confusa, así que ten en cuenta estas definiciones:

- Index (índice): un componente de un Series o DataFrame, accesible mediante el atributo `index`.
- Indexing (indexación): el proceso de acceder a los valores de un Series o DataFrame utilizando sus índices.
  
Es posible utilizar el atributo `loc[]` para acceder a los elementos del DataFrame utilizando los valores de los índices y los nombres de las columnas:

In [None]:
# Filtrado mediante uso de índices
## Creación listas para dataframe
states  = ['Alabama', 'Alaska', 'Arizona', 'Arkansas']
flowers = ['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom']
insects = ['Monarch butterfly', 'Four-spotted skimmer dragonfly', 'Two-tailed swallowtail', 'European honey bee']
index   = ['state 1', 'state 2', 'state 3', 'state 4']

df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)

## Filtrado
filtered_df = df.loc[['state 1', 'state 3'], ['flower', 'insect']]
print(filtered_df)

                         flower                  insect
state 1                Camellia       Monarch butterfly
state 3  Saguaro cactus blossom  Two-tailed swallowtail


Para obtener un rango de índices para una **única columna o fila**, solo hay que especificar el primer y el último índice separados por un `:`. 

In [None]:
## Indexar una sola solumna
print(df.loc['state 1': 'state 3', 'flower'])
print() 

## Indexar una sola fila
print(df.loc["state 1", "flower":"insect"])

state 1                  Camellia
state 2             Forget-me-not
state 3    Saguaro cactus blossom
Name: flower, dtype: object

flower             Camellia
insect    Monarch butterfly
Name: state 1, dtype: object


De la misma manera, puedes seleccionar **múltiples columnas así como índices**:

In [None]:
print(df.loc["state 1": "state 3", "flower": "insect"])

                         flower                          insect
state 1                Camellia               Monarch butterfly
state 2           Forget-me-not  Four-spotted skimmer dragonfly
state 3  Saguaro cactus blossom          Two-tailed swallowtail


Para utilizar el método `iloc[]` es muy similar. La principal diferencia entre métodos, es que `loc[]` utiliza el índice y las _etiquetas_ de columnas para acceder a los elementos, mientras que `iloc[]` utiliza _enteros_ para designar las posiciones de los elementos que necesitas obtener.

In [None]:
## Uso de iloc para seleccionar el elemento de la fila 4 y la columna 3
print(df.iloc[3, 2])

European honey bee


De la misma manera que con `loc[]`, podemos acceder a múltiples filas y/o columnas con `iloc[]` pasándole listas de sus posiciones o utilizando el slicing.

In [27]:
## Indexación utilizando celdas específicas
print(df.iloc[[1,3], [1,2]])
print()

## Indexación utilizando rangos
print(df.iloc[0:2, 1:3])

                flower                          insect
state 2  Forget-me-not  Four-spotted skimmer dragonfly
state 4  Apple blossom              European honey bee

                flower                          insect
state 1       Camellia               Monarch butterfly
state 2  Forget-me-not  Four-spotted skimmer dragonfly


Como podemos observar al utilizar rangos no es necesario poner los índices entre corchetes `[]`. En cambio si vamos a definir celdas específicas se necesita definirlas con los corchetes. 

- Usar `iloc[]` puede ser más conveniente si sabes que solo quieres ver las primeras filas o columnas, o cuando sabes el número exacto de fila o columna que necesitas. `iloc[]` también puede ser útil como un atajo para ahorrar tiempo al escribir nombres de columnas o etiquetas de índices.

- Usar `loc[]` puede lograr una mejor legibilidad y comprensión de lo que tu código está haciendo, tanto para tus colegas que leen tu código como para tu yo del futuro.

### Filtrado personalizado mediante query()

Para filtrar DataFrames utilizando operadores lógicos para crear una serie de Booleanos que llamaremos **máscara booleana** a partir de ahora. Esta máscara nos permitirá accesar a la condición que queremos al implementarla sobre el df original. 

In [None]:
## Establesco la condición y creo el df booleano (máscara)
mask = df['jp_sales'] >= 1

## Pongo al df la máscara booleana y selecciona aquellas columnas que em interesan
print(df[mask][['name', 'jp_sales']])


Podemos realizar este mismo filtrado utilizando el método `query()`.

In [None]:
## LA misma condición establecida previamente
print(df.query("jp_sales > 1")[['name', 'jp_sales']])