# CSV

In [None]:
import pandas as pd

df = pd.read_csv("usuarios_lenguajes.csv") 
print(df)

In [3]:
df2 = pd.read_csv("usuarios_lenguajes2.csv", header=None)
print(df2)

        0   1   2   3
0  python  56  30  26
1    java  21   8  13
2   scala  32  15  17
3       r  12   9   3
4     c++  23  13  10


In [4]:
df3 = pd.read_csv("usuarios_lenguajes3.csv", index_col=0) 
print(df3)

  lenguaje  usuarios  hombres  mujeres
0   python        56       30       26
1     java        21        8       13
2    scala        32       15       17
3        r        12        9        3
4      c++        23       13       10


## Atributos DataFrame
- df.info() : Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.

- df.shape : Devuelve una tupla con el número de filas y columnas del DataFrame df.

- df.size : Devuelve el número de elementos del DataFrame.

- df.columns : Devuelve una lista con los nombres de las columnas del DataFrame df.

- df.index : Devuelve una lista con los nombres de las filas del DataFrame df.

- df.dtypes : Devuelve una serie con los tipos de datos de las columnas del DataFrame df.

- df.head(n) : Devuelve las n primeras filas del DataFrame df.

- df.tail(n) : Devuelve las n últimas filas del DataFrame df.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   lenguaje  5 non-null      object
 1   usuarios  5 non-null      int64 
 2   hombres   5 non-null      int64 
 3   mujeres   5 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 288.0+ bytes


In [6]:
df.shape

(5, 4)

In [7]:
df.size

20

In [8]:
df.columns

Index(['lenguaje', 'usuarios', 'hombres', 'mujeres'], dtype='object')

In [9]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
df.dtypes

lenguaje    object
usuarios     int64
hombres      int64
mujeres      int64
dtype: object

In [11]:
df.head(2)

Unnamed: 0,lenguaje,usuarios,hombres,mujeres
0,python,56,30,26
1,java,21,8,13


In [12]:
df.tail(2) 

Unnamed: 0,lenguaje,usuarios,hombres,mujeres
3,r,12,9,3
4,c++,23,13,10


## Renombrar los nombres de las filas y columnas
- df.rename(columns=columnas, index=filas): Devuelve el DataFrame que resulta de renombrar las columnas indicadas en las claves del diccionario columnas con sus valores y las filas indicadas en las claves del diccionario filas con sus valores en el DataFrame df.

In [15]:
print(df.rename(columns={'usuarios':'users'}))

  lenguaje  users  hombres  mujeres
0   python     56       30       26
1     java     21        8       13
2    scala     32       15       17
3        r     12        9        3
4      c++     23       13       10


## Acceso a los elementos de un DataFrame
ACCESO MEDIANTE POSICIONES
- df.iloc[i, j] : Devuelve el elemento que se encuentra en la fila i y la columna j del DataFrame df. Pueden indicarse secuencias de índices para obtener partes del DataFrame.
- df.iloc[filas, columnas] : Devuelve un DataFrame con los elementos de las filas de la lista filas y de las columnas de la lista columnas.

- df.iloc[i] : Devuelve una serie con los elementos de la fila i del DataFrame df.

ACCESO MEDIANTE NOMBRES
- df.loc[fila, columna] : Devuelve el elemento que se encuentra en la fila con nombre fila y la columna de con nombre columna del DataFrame df.
- df.loc[filas, columnas] : Devuelve un DataFrame con los elemento que se encuentra en las filas con los nombres de la lista filas y las columnas con los nombres de la lista columnas del DataFrame df.
- df[columna] : Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df.
- df.columna : Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df. Es similar al método anterior pero solo funciona cuando el nombre de la columna no tiene espacios en blanco.

In [16]:
df.iloc[2, 1]

32

In [18]:
print(df.loc[:3, ('hombres','mujeres')])

   hombres  mujeres
0       30       26
1        8       13
2       15       17
3        9        3


## Operaciones con las columnas de un DataFrame
AÑADIR COLUMNAS A UN DATAFRAME

El procedimiento para añadir una nueva columna a un DataFrame es similar al de añadir un nuevo par a un diccionario, pero pasando los valores de la columna en una lista o serie.

- d[nombre] = lista: Añade al DataFrame df una nueva columna con el nombre nombre y los valores de la lista lista. La lista debe tener el mismo tamaño que el número de filas de df.

- d[nombre] = serie: Añade al DataFrame df una nueva columna con el nombre nombre y los valores de la serie serie. Si el tamaño de la serie es menor que el número de filas de df se rellena con valores NaN mientras que si es mayor se recorta.

In [19]:
df['mujeres'] = pd.Series([99, 99, 99, 99, 99])
print(df)

  lenguaje  usuarios  hombres  mujeres
0   python        56       30       99
1     java        21        8       99
2    scala        32       15       99
3        r        12        9       99
4      c++        23       13       99


In [21]:
#Puesto que los datos de una misma columna de un DataFrame son del mismo tipo, 
#es fácil aplicar la misma operación a todos los elementos de la columna.

print(df['hombres']==8)

0    False
1     True
2    False
3    False
4    False
Name: hombres, dtype: bool


## Eliminar columnas de un DataFrame
Para eliminar columnas de un DataFrame se utilizan los siguientes métodos:

- del d[nombre] : Elimina la columna con nombre nombre del DataFrame df.
- df.pop(nombre) : Elimina la columna con nombre nombre del DataFrame df y la devuelve como una serie.

In [22]:
edad = df.pop('mujeres')

In [23]:
df

Unnamed: 0,lenguaje,usuarios,hombres
0,python,56,30
1,java,21,8
2,scala,32,15
3,r,12,9
4,c++,23,13


## Añadir una fila a un DataFrame
Para añadir una fila a un DataFrame se utiliza el siguiente método:

- df.append(serie, ignore_index=True) : Devuelve el DataFrame que resulta de añadir una fila al DataFrame df con los valores de la serie serie. Los nombres del índice de la serie deben corresponderse con los nombres de las columnas de df. Si no se pasa el parámetro ignore_index entonces debe pasarse el parámetro name a la serie, donde su argumento será el nombre de la nueva fila.

In [24]:
df = df.append(pd.Series(['Ruby', 28, 10], index=['lenguaje','usuarios','hombres']), ignore_index=True)
print(df.tail())

  lenguaje  usuarios  hombres
1     java        21        8
2    scala        32       15
3        r        12        9
4      c++        23       13
5     Ruby        28       10


## Eliminar filas de un DataFrame
Para eliminar filas de un DataFrame se utilizan el siguiente método:

- df.drop(filas) : Devuelve el DataFrame que resulta de eliminar las filas con los nombres indicados en la lista filas del DataFrame df.

In [25]:
print(df.drop(5))

  lenguaje  usuarios  hombres
0   python        56       30
1     java        21        8
2    scala        32       15
3        r        12        9
4      c++        23       13
